Evitare che i robot non indicizzino alcuni specifici links

d.force

Evitare che i robot non indicizzino alcuni specifici links

Salve a tutti,

vorrei che google non processi determinati link presenti all?interno del mio sito.

Mi spiego meglio:

All?interno del mio sito sono presenti alcuni link relativi a file che si possono scaricare come .pdf, .kml e .gpx.

Ora, (anche leggendo le linee guida di google in merito al robot.txt) ho provato a evitare che Google processi questi link agendo sul file robot.txt in questo modo:

User-agent: *
Disallow: /.pdf$
Disallow: /.kml$
Disallow: /.gpx$
Disallow: /.php$

Tuttavia ho il dubbio che non funzioni.

Il fatto è che su questi link ho un contatore di click che poi visualizzo sulla stessa pagina per far vedere agli utenti quante volte è stato scaricato un determinato link (dato che un click corrisponde ad un download del file).

Il sospetto che il robot di Google e degli altri motori di ricerca processi ugualmente questi file (facendo scattare il click) è dato dal fatto che rispetto alle visite ci sono oggettivamente troppi ?click? per ogni files. Non è possibile che tutti i visitatori scarichino i files? qualcuno sarà pure non interessato!

Il problema forse è dovuto al fatto che il link non si presenta come:

www.miosito.com/colore/verde.pdf o www.miosito.com/colore/area.kml

ma come:

www.miosito.com/dwcounter/click.php?id=13 o www.miosito.com/dwcounter/click.php?id=27

e così via.

Quindi può darsi, in questo caso, che Google non riconosca che il file .pdf, .kml e .gpx e che quindi lo indicizzi e faccia ?scattare? il click del contatore.

Secondo voi come posso risolvere questo problema?

Magari inserendo ogni singola url come www.miosito.com/dwcounter/click.php?id=13 nel file robot.txt? Il problema è che avrò circa un centinaio di files e scrivere ogni singola url nel txt mi fa un po? fatica, quindi prima di procedere chiedo lumi a voi.

Grazie per il vostro aiuto!

juanin

Ciao d-force.

Punto 1 e molto importante: il robots.txt non regola l'indicizzazione, ma solo l'accesso alle risorse. Leggi questo post e tutti i commenti e link presenti http://seoblog.giorgiotave.it/seo-per-programmatori/5072
Punto 2: non capisco perché una risorsa indicizzata dovrebbe scatenare un click. È molto più probabile che siano bot anche diversi da Googlebot che passano su quelle pagine. Controlla i log.

d.force

Ciao Juanin e grazie per la tua risposta. Ho anche letto l'articolo che mi hai suggerito.

Fatto sta che vorrei capire perchè il "contaclick" aumenta di numero (considerate le visite, quindi non è possibile che siano utenti che cliccano effettivamente sul link).

Da dove li vedo i log per un determinato link?

juanin

Vedi tutto dai log del server. Dipende dal tipo di server che usi.

d.force

Ciao, ho avuto accesso ai log.

Ma da dove riesco a vedere se un determinato robot processa i links che ho chiesto?

juanin

Basa che cerchi il percorso del link in questione.

d.force

OK, ho visto nei file di log una riga così:

207.46.13.116 - - [15/Feb/2015:12:09:47 +0100] "GET /download/percorsi-mtb/pdf/percorso1-mtb-deu.pdf HTTP/1.1" 200 164906 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" 323

è il robot di bing?

juanin

Si il robot è di Bing.

d.force

OK, quindi è evidente che questa regola del robot.txt non funziona:

User-agent: *
Disallow: /*.pdf$

juanin

Il file è robots.txt e non robot.txt

In teoria Google (da sue linee guida) dovrebbe rispettare le regole con Wildcard (*). Bing non lo so. Quello che puoi fare è iscriverti agli strumenti per Webmaster di Bing e testare l'accesso con l'apposito tool.