- Home
- Categorie
- Digital Marketing
- Posizionamento Nei Motori di Ricerca
- Evitare che i robot non indicizzino alcuni specifici links
-
Evitare che i robot non indicizzino alcuni specifici links
Salve a tutti,
vorrei che google non processi determinati link presenti all?interno del mio sito.
Mi spiego meglio:
All?interno del mio sito sono presenti alcuni link relativi a file che si possono scaricare come .pdf, .kml e .gpx.
Ora, (anche leggendo le linee guida di google in merito al robot.txt) ho provato a evitare che Google processi questi link agendo sul file robot.txt in questo modo:
User-agent: *
Disallow: /.pdf$
Disallow: /.kml$
Disallow: /.gpx$
Disallow: /.php$Tuttavia ho il dubbio che non funzioni.
Il fatto è che su questi link ho un contatore di click che poi visualizzo sulla stessa pagina per far vedere agli utenti quante volte è stato scaricato un determinato link (dato che un click corrisponde ad un download del file).
Il sospetto che il robot di Google e degli altri motori di ricerca processi ugualmente questi file (facendo scattare il click) è dato dal fatto che rispetto alle visite ci sono oggettivamente troppi ?click? per ogni files. Non è possibile che tutti i visitatori scarichino i files? qualcuno sarà pure non interessato!
Il problema forse è dovuto al fatto che il link non si presenta come:
www.miosito.com/colore/verde.pdf o www.miosito.com/colore/area.kml
ma come:
www.miosito.com/dwcounter/click.php?id=13 o www.miosito.com/dwcounter/click.php?id=27
e così via.
Quindi può darsi, in questo caso, che Google non riconosca che il file .pdf, .kml e .gpx e che quindi lo indicizzi e faccia ?scattare? il click del contatore.
Secondo voi come posso risolvere questo problema?
Magari inserendo ogni singola url come www.miosito.com/dwcounter/click.php?id=13 nel file robot.txt? Il problema è che avrò circa un centinaio di files e scrivere ogni singola url nel txt mi fa un po? fatica, quindi prima di procedere chiedo lumi a voi.
Grazie per il vostro aiuto!
-
Ciao d-force.
Punto 1 e molto importante: il robots.txt non regola l'indicizzazione, ma solo l'accesso alle risorse. Leggi questo post e tutti i commenti e link presenti http://seoblog.giorgiotave.it/seo-per-programmatori/5072
Punto 2: non capisco perché una risorsa indicizzata dovrebbe scatenare un click. È molto più probabile che siano bot anche diversi da Googlebot che passano su quelle pagine. Controlla i log.
-
Ciao Juanin e grazie per la tua risposta. Ho anche letto l'articolo che mi hai suggerito.
Fatto sta che vorrei capire perchè il "contaclick" aumenta di numero (considerate le visite, quindi non è possibile che siano utenti che cliccano effettivamente sul link).
Da dove li vedo i log per un determinato link?
-
Vedi tutto dai log del server. Dipende dal tipo di server che usi.
-
Ciao, ho avuto accesso ai log.
Ma da dove riesco a vedere se un determinato robot processa i links che ho chiesto?
-
Basa che cerchi il percorso del link in questione.
-
OK, ho visto nei file di log una riga così:
207.46.13.116 - - [15/Feb/2015:12:09:47 +0100] "GET /download/percorsi-mtb/pdf/percorso1-mtb-deu.pdf HTTP/1.1" 200 164906 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" 323
è il robot di bing?
-
Si il robot è di Bing.
-
OK, quindi è evidente che questa regola del robot.txt non funziona:
User-agent: *
Disallow: /*.pdf$
-
Il file è robots.txt e non robot.txt
In teoria Google (da sue linee guida) dovrebbe rispettare le regole con Wildcard (*). Bing non lo so. Quello che puoi fare è iscriverti agli strumenti per Webmaster di Bing e testare l'accesso con l'apposito tool.