• Super User

    Ipotesi: hai avuto il sito bucato in passato e quelle URL erano generate dal malware.

    È un tipo di hack molto comune purtroppo (ti bucano il sito ed installano uno script che genera pagine e-commerce fasulle, a scopo di truffa).

    Ora il malware non c'è più, ma hai ancora molte URL sparse in giro, che quando vengono chiamate vanno però in 404.

    Il problema quindi è di fatto già risolto.


    g.lanzi 1 Risposta
  • Admin

    Vediamo i log avanzati poi giudichiamo. In ogni caso è normalissimo vedere 404 assurdi. Spesso sono tentativi di hacking.


  • Moderatore

    @kal
    Mi è successo, in effetti, ma in teoria è stato pulito tutto, o così mi è stato assicurato da chi ha fatto il lavoro (la mia vecchia compagnia di hosting).

    Come dice anche @juanin vediamo i log avanzati e capiamo cosa sia successo.


    kal 1 Risposta
  • Super User

    @glanzi bingo 🙂

    Che ti rimangano loggati in 404 è normalissimo, perché erano indicizzati in precedenza.

    Non è un problema, perché 404 è esattamente il comportamento atteso per una pagina che non c'è più.


    juanin 1 Risposta
  • Admin

    Al massimo puoi forzare 410 per esplicitare che non torneranno mai più


  • Moderatore

    Eccomi qui, con dei log più completi. Intanto grazie per le risposte finora.

    Da quando ho abilitato i log avanzati, sono state 89 gli 404, di cui 61 di bot, tra Google, Bing, Ahref, Siteground o Lighthouse.

    Ne avanzano 28, alcuni dei quali non capisco nemmeno come possano verificarsi.

    1. Questo agente Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36Chrome 87.0.4280.67
      • cerca un file ads.txt che non ho mai nemmeno avuto. Nessun refer
      • cerca un file asset-manifest.json , anche questo mai avuto e sicuramente mai linkato. Refer: homepage
    2. Questo agente Mozilla/5.0 (compatible; MSIE 8.0; MSIE 9.0; Windows NT 6.0; Trident/4.0; InfoPath.1; SV1; .NET CLR 3.8.36217; WOW64; en-US)MSIE 8.0
      • cerca 404javascript.js, refer http://www.google.com/url/?sa=t (?)
      • cerca 404testpage4525d2fdc, refer http://sucuri.net . Non uso Sucuri, ma è in uso sul sito di un mio cliente su cui c'è il link al mio sito.
    3. Questo agente Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36Chrome 84.0.4147.125
      • cerca dei file .js dentro alla cartella di un vecchio plugin che non ho più (Ultimate member) e di cui non ho nemmeno più la cartella nell'applicazione
    4. Questo agente python-requests/2.25.0python-requests 2.25.0
      • cerca config.bak.php, file che forse una volta, in un altro hosting ho avuto nella cartella per un paio d'ore
    5. Questo agente python-requests/2.24.0python-requests 2.24.0
      • cerca file .php dentro alla cartella di un plugin che non ho mai avuto, WP-Engine-module
    6. Questo agente Googlebot-Image/1.0Googlebot-Image 1.0 (diverso dagli agenti bot di google soliti)
      • cerca mages/large/pullover/Uomo farina d avena Jack Jones Duro Jumper sale 919_4_LRG.jpg che sembra più che altro un prodotto realizzato da un robot che ha concatenato delle parole a caso.
    7. Infine questo agente curl/7.47.0curl 7.47.0
      • cerca .nev

    Se non ho specificato i refer, è perché non sono nel log.
    La domanda che mi sorge è la seguente: com'è possibile che ci siano delle richieste per contenuti che non ho mai nemmeno avuto sul sito? Soprattutto le richieste python mi suonano molto strane!

    Scusate la lunghezza di questo report, ma è anche per capire come mai ci siano questi 404 sul sito.

    Grazie mille!


    kal G 2 Risposte
  • Super User

    @glanzi ha detto in Strane pagine 404 nel log:

    La domanda che mi sorge è la seguente: com'è possibile che ci siano delle richieste per contenuti che non ho mai nemmeno avuto sul sito? Soprattutto le richieste python mi suonano molto strane!

    Ahhhh, hai scopertchiato il vaso dei Log :d:

    E' perfettamente normale avere quel tipo di monnezza nei log. Sono script di gente che prova a trovare vulnerabilità, spammer, o crawler di varia natura (a volte legittimi, il più delle volte grey/black).

    Spammano URL di script con vulnerabilità note e non fixate, nella speranza di beccarci.

    Se vanno in 404 quindi è una BUONA notizia (perché la chiamata non va a buon fine).

    (rovescio della medaglia: se vanno in 200 è una pessima notizia...)

    Nel momento in cui inizi a guardare ste cose, non finisci più. Ma se hai tempo da perdere, puoi scoprire un sacco di cose interessanti... è molto formativo.


    g.lanzi 1 Risposta
  • Moderatore

    Era quello che sospettavo @kal.

    Non avendo mai affrontato in profondità lo studio di queste pratiche, non sono sicuro quando le vedo.

    Mi sto focalizzando molto sulla sicurezza, anche da un punto di vista dei contenuti, quindi credo approfondirò e magari in futuro ci faccio pure un articolo o un video sul canale, alla faccia degli hacker :3:


  • User Attivo

    @glanzi ha detto in Strane pagine 404 nel log:

    ads.txt

    ads.txt è roba di adsense. Devi generarla e farne l'upload via ftp.


    g.lanzi 1 Risposta
  • Moderatore

    @grifter72
    ...ma non ho mai usato Adsense sul mio sito...

    Immagino che sia un qualche automatismo che lo ha cercato per verificare la sua presenza.


    sermatica 1 Risposta
  • Moderatore

    @glanzi ha detto in Strane pagine 404 nel log:

    Immagino che sia un qualche automatismo che lo ha cercato per verificare la sua presenza.

    Ciao
    Si, sui siti che gestisco rilevo spesso visite al file ads.txt che spesso non esiste perchè non c'è pubblicità sul sito.