• Moderatore

    Strane pagine 404 nel log

    Ciao a tutti,
    Tramite Rank Math ho abilitato il log dei 404 con l'intento di verificare se ci fossero del 301 da fare o simili.

    In realtà ho scoperto che gran parte dei 404 avvengono su link che non sono mai stati sotto il mio dominio, ma sembrano quelli di uno shop online. Peraltro contengono anche caratteri speciali tipo © o ê.

    vi metto un paio di slug per esempio:

    uomo-offwhite-mêlee-rhode-island-maglione-skipper-sale-p-890.html
    donne-grigio-mêlee-tappo-kangaroos-uchonsweatshirt-sale-p-1732.html
    collection/dolcevita-ett_277.html
    

    Alcuni hanno anche la categoria.

    Ora, considerando che il mio sito non ha mai nemmeno lontanamente avuto dei prodotti del genere e che non riconosco alcun link come un possibile mio vecchio link: mi devo preoccupare?
    A cosa potrebbe essere dovuto? Qualcuno ha inserito un sacco di link sbagliati in un ecommerce? Il mio dominio ha ripercussioni?


    juanin 1 Risposta
  • Admin

    @glanzi hanno un referral o sono accessi diretti?

    Parli di log completi giusto? Non filtrati solo per Googlebot.


    g.lanzi 1 Risposta
  • Moderatore

    @juanin
    I log di cui parlo sono generati all'interno del sito da Rank Math. Per la Google Search Console non ci sono problemi sul sito.

    I log presentano solo i link di destinazione e quando sono stati riscontrati. Ho attivato oggi il log avanzato e spero di avere presto dei dati anche su refer e user agent.

    La mia ipotesi è che si tratti di un qualche automatismo, ma non capisco come sia possibile che vengano cercati dei prodotti di maglieria su un sito che parla di web design e servizi per il web.

    Potrebbero anche essere dei GBot, ma allora da qualche parte c'è un sito che ha tutti gli url sbagliati!
    Ho solo il timore che il mio dominio sia in qualche modo penalizzato.


  • Super User

    Ipotesi: hai avuto il sito bucato in passato e quelle URL erano generate dal malware.

    È un tipo di hack molto comune purtroppo (ti bucano il sito ed installano uno script che genera pagine e-commerce fasulle, a scopo di truffa).

    Ora il malware non c'è più, ma hai ancora molte URL sparse in giro, che quando vengono chiamate vanno però in 404.

    Il problema quindi è di fatto già risolto.


    g.lanzi 1 Risposta
  • Admin

    Vediamo i log avanzati poi giudichiamo. In ogni caso è normalissimo vedere 404 assurdi. Spesso sono tentativi di hacking.


  • Moderatore

    @kal
    Mi è successo, in effetti, ma in teoria è stato pulito tutto, o così mi è stato assicurato da chi ha fatto il lavoro (la mia vecchia compagnia di hosting).

    Come dice anche @juanin vediamo i log avanzati e capiamo cosa sia successo.


    kal 1 Risposta
  • Super User

    @glanzi bingo 🙂

    Che ti rimangano loggati in 404 è normalissimo, perché erano indicizzati in precedenza.

    Non è un problema, perché 404 è esattamente il comportamento atteso per una pagina che non c'è più.


    juanin 1 Risposta
  • Admin

    Al massimo puoi forzare 410 per esplicitare che non torneranno mai più


  • Moderatore

    Eccomi qui, con dei log più completi. Intanto grazie per le risposte finora.

    Da quando ho abilitato i log avanzati, sono state 89 gli 404, di cui 61 di bot, tra Google, Bing, Ahref, Siteground o Lighthouse.

    Ne avanzano 28, alcuni dei quali non capisco nemmeno come possano verificarsi.

    1. Questo agente Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36Chrome 87.0.4280.67
      • cerca un file ads.txt che non ho mai nemmeno avuto. Nessun refer
      • cerca un file asset-manifest.json , anche questo mai avuto e sicuramente mai linkato. Refer: homepage
    2. Questo agente Mozilla/5.0 (compatible; MSIE 8.0; MSIE 9.0; Windows NT 6.0; Trident/4.0; InfoPath.1; SV1; .NET CLR 3.8.36217; WOW64; en-US)MSIE 8.0
      • cerca 404javascript.js, refer http://www.google.com/url/?sa=t (?)
      • cerca 404testpage4525d2fdc, refer http://sucuri.net . Non uso Sucuri, ma è in uso sul sito di un mio cliente su cui c'è il link al mio sito.
    3. Questo agente Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36Chrome 84.0.4147.125
      • cerca dei file .js dentro alla cartella di un vecchio plugin che non ho più (Ultimate member) e di cui non ho nemmeno più la cartella nell'applicazione
    4. Questo agente python-requests/2.25.0python-requests 2.25.0
      • cerca config.bak.php, file che forse una volta, in un altro hosting ho avuto nella cartella per un paio d'ore
    5. Questo agente python-requests/2.24.0python-requests 2.24.0
      • cerca file .php dentro alla cartella di un plugin che non ho mai avuto, WP-Engine-module
    6. Questo agente Googlebot-Image/1.0Googlebot-Image 1.0 (diverso dagli agenti bot di google soliti)
      • cerca mages/large/pullover/Uomo farina d avena Jack Jones Duro Jumper sale 919_4_LRG.jpg che sembra più che altro un prodotto realizzato da un robot che ha concatenato delle parole a caso.
    7. Infine questo agente curl/7.47.0curl 7.47.0
      • cerca .nev

    Se non ho specificato i refer, è perché non sono nel log.
    La domanda che mi sorge è la seguente: com'è possibile che ci siano delle richieste per contenuti che non ho mai nemmeno avuto sul sito? Soprattutto le richieste python mi suonano molto strane!

    Scusate la lunghezza di questo report, ma è anche per capire come mai ci siano questi 404 sul sito.

    Grazie mille!


    kal G 2 Risposte
  • Super User

    @glanzi ha detto in Strane pagine 404 nel log:

    La domanda che mi sorge è la seguente: com'è possibile che ci siano delle richieste per contenuti che non ho mai nemmeno avuto sul sito? Soprattutto le richieste python mi suonano molto strane!

    Ahhhh, hai scopertchiato il vaso dei Log :d:

    E' perfettamente normale avere quel tipo di monnezza nei log. Sono script di gente che prova a trovare vulnerabilità, spammer, o crawler di varia natura (a volte legittimi, il più delle volte grey/black).

    Spammano URL di script con vulnerabilità note e non fixate, nella speranza di beccarci.

    Se vanno in 404 quindi è una BUONA notizia (perché la chiamata non va a buon fine).

    (rovescio della medaglia: se vanno in 200 è una pessima notizia...)

    Nel momento in cui inizi a guardare ste cose, non finisci più. Ma se hai tempo da perdere, puoi scoprire un sacco di cose interessanti... è molto formativo.


    g.lanzi 1 Risposta
  • Moderatore

    Era quello che sospettavo @kal.

    Non avendo mai affrontato in profondità lo studio di queste pratiche, non sono sicuro quando le vedo.

    Mi sto focalizzando molto sulla sicurezza, anche da un punto di vista dei contenuti, quindi credo approfondirò e magari in futuro ci faccio pure un articolo o un video sul canale, alla faccia degli hacker :3:


  • User Attivo

    @glanzi ha detto in Strane pagine 404 nel log:

    ads.txt

    ads.txt è roba di adsense. Devi generarla e farne l'upload via ftp.


    g.lanzi 1 Risposta
  • Moderatore

    @grifter72
    ...ma non ho mai usato Adsense sul mio sito...

    Immagino che sia un qualche automatismo che lo ha cercato per verificare la sua presenza.


    sermatica 1 Risposta
  • Moderatore

    @glanzi ha detto in Strane pagine 404 nel log:

    Immagino che sia un qualche automatismo che lo ha cercato per verificare la sua presenza.

    Ciao
    Si, sui siti che gestisco rilevo spesso visite al file ads.txt che spesso non esiste perchè non c'è pubblicità sul sito.