• User

    404 not found - Errori di Crawl

    Salve,

    ho sostituito le pagine di un sito che ho riadattato in chiave motori di ricerca. Ho eliminato dunque i file flash, i popup e alcuni file .html che non sono più presenti.

    Andando a guardare in Web Master Tool di Google mi da errore 404 per alcune pagine .html rimosse.

    Inoltre usando il comando site: di Google sono listati molti file ancora presenti nel db di G ma che ormai non sono più online.

    Come evitare di ottenere questi errori di web crawling ed eliminare cmq tutti questi file?


  • Bannato User Attivo

    se le pagine sono rimosse ovvio che ti da errore 404... puoi fare in 2 modi

    1. tramite htaccess
    2. aspettando la prossima indicizzazione

  • User

    Ok grazie per i tuoi consigli.

    Alcuni dubbi:

    1. potresti spiegarmi o indicarmi fonti dov è spiegato l' htaccess e come implementarlo?

    2. intendi dire che nel prossimo passaggio dello spider non verranno presi in considerazione questi file perchè non li ha trovati una seconda volta?

    Come fare per eliminarli anche dal db di Google? Usando il comando site: me ne trova ancora tanti....

    Many, many thanks


  • Bannato User Attivo

    @palmerstoneroad said:

    1. potresti spiegarmi o indicarmi fonti dov è spiegato l' htaccess e come implementarlo?

    prova su html.it o su google... trovi tanta roba a riguardo... cmq è semplice

    @palmerstoneroad said:

    1. intendi dire che nel prossimo passaggio dello spider non verranno presi in considerazione questi file perchè non li ha trovati una seconda volta?

    esatto... di solito le prime volte anche se con errore 404 tende cmq a lasciarle perchè magari potrebbe essere un "errore" del tuo server o un errore umano...
    dopo un pò le elimina definitivamente; ancora prima se usi un htaccess per gestire 301 e 404