• User

    Grave problema con spider di google, chiedo aiuto!

    Ciao a tutti, ho un grave problema con lo spider di google.
    Dovevo eliminare una directory creata col mod_rewrite denominata 'articoli' e insieme con la dir tutti i seguenti links:

    www.sitoxxxxxxx.it/articoli/1/articolo.php
    www.sitoxxxxxxx.it/articoli/2/articolo.php
    www.sitoxxxxxxx.it/articoli/3/articolo.php
    www.sitoxxxxxxx.it/articoli/4/articolo.php

    vi è un quinto link:
    www.sitoxxxxxxx.it/articoli/5/articolo.php

    che invece continuero' a conservare. Ho provato da 'strumenti per webmaster' di google e rimuovere tutte le righe suindicate e la procedura è andata a buon fine.
    Purtroppo pero' noto che lo spider continua a cercarli!
    Praticamente vedo una sfilza di errori 404 nel pannello di google con data piuttosto recente! Come mai? In cosa ho sbagliato? Come devo regolarmi??
    Devo inserire i links rimossi anche in robots.txt??
    L'indicizzazione delle pagine sta andando a rotoli a causa di questo problema.

    Per favore aiutatemi.


  • User

    ciao Blue_65

    sicuramente l'utilizzare il robots.txt ti darà una mano.

    In pratica devi creare un file di blocco note che chiamerai "robots.txt" che caricherai via FTP nella root principale del sito, dove solitamente si trova il file index.html del sito.
    All'interno del robots.txt scriverai:

    User-agent:
    Disallow

    tenendo presente che

    "
    L' blocca tutti i Webbots (acronimo di Web Robots).
    Per specificare quale webbots bloccare sostituisci l'
    con il nome (ES: Google --> googlebot)**

    Per bloccare un intero sito, utilizza una barra.

    User-Agent: *
    Disallow: /

    Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.

    User-Agent: *
    Disallow: /nome_directory/

    Per bloccare una pagina, indica tale pagina.

    User-Agent: *
    Disallow: /private_file.html
    "
    :ciauz:


  • User

    Grazie per avermi risposto, il file già esiste. E' strano tuttavia che eliminando quei links da google strumenti comunque occorra il file robots.txt per evitare il 404. Ma è un bug di google? A qualcun altro è successo? :bho:

    Ma poi se applico nel robots.txt il disallow ad una dir, questo mi disabilita in auto le sottodirectory?

    Ciao. :ciauz:


  • Bannato Super User

    @Blue_65 said:

    Ma poi se applico nel robots.txt il disallow ad una dir, questo mi disabilita in auto le sottodirectory?

    temo di sì, per tanto inserirei un divieto relativamente, solo alle URL che vuoi eliminare.
    🙂