• User

    Aumento errori 404

    Buongiorno,
    da inizio mese sto iniziando a rilevare, tramite Strumenti per Webmaster, un sacco di errori 404 per pagine che non state mai state presenti sul sito stesso.

    Es. index.php?imiqb o altri valori casuali o wx.php?skuz2

    Questo può comportare penalizzazioni o valutazioni negative del sito da parte di Google o di altri motori ?

    Grazie in anticipo,
    Stefano


  • Moderatore

    Ciao killian32,

    @killian32 said:

    da inizio mese sto iniziando a rilevare, tramite Strumenti per Webmaster, un sacco di errori 404 per pagine che non state mai state presenti sul sito stesso.

    Es. index.php?imiqb o altri valori casuali o wx.php?skuz2

    Questo può comportare penalizzazioni o valutazioni negative del sito da parte di Google o di altri motori ?
    Se sono dei 404 no, per Google non rappresentano un problema.
    Sugli altri motori di ricerca non mi esprimo, mi aspetto si comportino come Google a riguardo.

    Spero d'esserti stato utile.


  • Moderatore

    Ciao Federico mi intrometto approfittando della tua grande conoscenza in materia.

    Google continuerà ad interrogare il documento in 404, questo non porterà una spesa inutile del crawl budget? (ovviamente questo influenzerà quando le pagine 404 sono veramente molte)

    Possiamo ipotizzare che **quando **il nostro documento in 404 scompare dalla SERP signfica che il crawler si è "arreso" ed ha deciso di non cercare più il contenuto (con conseguente risparmio di crawl budget)?

    Spero di non aver detto due grandi cavolate 😄
    Simo


  • Moderatore

    @sssimo said:

    Google continuerà ad interrogare il documento in 404, questo non porterà una spesa inutile del crawl budget? (ovviamente questo influenzerà quando le pagine 404 sono veramente molte)
    Buona osservazione!
    Sì, tecnicamente è possibile. Non penso sia così facile causare problemi di crawl budget in questo modo, immagino gli URL creati abbiano bassa priorità nello scheduler di Google... però è possibile.

    Spesso mi domando perché ci sia chi si prende pena di creare link a risorse palesemente inesistenti su siti altrui. In alcuni casi non posso escludere l'errore umano (sono incappato in casi di web developer che nel creare un link al sito di un partner cercavano di pilotare l'aspetto della Home Page, o di implementare un sistema di tracciamento fatto in casa), ma nella maggior parte dei casi sembra fatto per altri motivi.
    Una spiegazione mi sono dato è il volere causare problemi di duplicazione contenuti (cosa gliene venga in tasca poi è un mistero). Per esempio link agli URL[INDENT]miosito.it/par=1
    miosito.it/par=2
    miosito.it/par=3[/INDENT]
    creerebbero tre risorse in concorrenza con la Home Page di miosito.it
    Nel caso di killian32 i parametri in querystring causano a quanto dice dei 404, per cui nessun problema di duplicazione, ma di solito le pagine web ignorano i parametri inattesi e presentano lo stesso contenuto.
    La soluzione facile è impostare il link canonical. Rappresentanti di Google in passato hanno sostenuto il MdR sia in grado di gestire in autonomia problemi di canonicalizzazione, meglio però essere in controllo della soluzione!

    @sssimo said:

    Possiamo ipotizzare che **quando **il nostro documento in 404 scompare dalla SERP signfica che il crawler si è "arreso" ed ha deciso di non cercare più il contenuto (con conseguente risparmio di crawl budget)?
    Sì, possiamo vederla in questo modo.
    Vista la sviolinata iniziale però mi sento costretto ad aggiungere qualcosa facendo la figura dell'antipatichinosotuttoio, e allora faccio notare che chi si "arrende" è lo scheduler di Google; il crawler non ha questa autonomia decisionale :figo2:

    Ciao!


  • Moderatore

    Queste correzioni sono sempre super ben accette, ovvio!! 😄
    Graziemile!!!


  • User

    Grazie per i chiarimenti 🙂
    Ne approfitto per chiedere un'ulteriore informazione.
    Visto che questi link sembrano creati ad arte è meglio lasciare un errore 404, impostare un redirect verso la home page o rispondere con un il codice 410 ?
    Lasciando i 404 il log di GWT mi si riempie inutilmente e rischio di perdere di vista gli errori veri 😞


  • Moderatore

    @killian32 said:

    Grazie per i chiarimenti 🙂
    Ne approfitto per chiedere un'ulteriore informazione.
    Visto che questi link sembrano creati ad arte è meglio lasciare un errore 404, impostare un redirect verso la home page o rispondere con un il codice 410 ?
    Lasciando i 404 il log di GWT mi si riempie inutilmente e rischio di perdere di vista gli errori veri 😞
    Mettere un 410 ha più o meno lo stesso effetto del 404 (anche se semanticamente vuole dire che la risorsa è esistita in passato).

    Il redirect lo eviterei: non solo un redirect verrebbe interpretato come un "soft 404" (poco male), ma c'è il rischio che se i siti da cui provengono i link malformati hanno cattiva reputazione (probabile), questo possa essere un cattivo segnale anche per il tuo sito e potrebbe passare con un 30x.

    Lascerei 404, sperando spariscano presto.
    Impostarli "fixed" potrebbe farli sparire temporaneamente.

    Spero d'esserti stato utile.


  • User

    Si, grazie di nuovo !


  • User

    Scusate se ritorno di nuovo su questo argomento ma il fenomeno sembra continuare.
    La provenienza è sempre da siti cinesi con le modalità descritte in precedenza.
    Al momento ho inserito i domini di provenienza nel disavow tool e nell'htaccess ho inserito

    RewriteCond %{HTTP_REFERER} nomesito.com
    RewriteRule .* - [F,L]

    C'è altro che posso fare ?