Matt Cutts: robots.txt e noindex

fortunecat

Matt Cutts: robots.txt e noindex

[CENTER]

[/CENTER]
Matt Cutts spiega la policy di Google nel considerare il robots.txt.
Una frequente lamentela nei confronti di Google è:
"Ho impedito a Google di effettuare il crawling di una pagina con il robots.txt, eppure le indicazioni contenute nel robots sono state violate, la pagina è stata scansionata e indicizzata."

Google da anni gestisce il robots.txt allo stesso modo.

Poniamo che vi sia una pagina:
example.com/go/123456
e che la cartella go sia stata bloccata da robots.txt.

Nonostante il blocco, nei risultati di ricerca appare:

example.com/go/123456
example.com/go/123456 - SimiliNotiamo come alla pagina non sia associato alcuno snippet. In realtà Google non ha effettuato il crawling della pagina, in accordo con le indicazioni del robots.txt.

Quello che appare nei risultati di ricerca è un "uncrawled url": Google lo ha inserito nell'indice - senza scansionarlo - perchè in altre pagine ha trovato un link a quella risorsa.

Proprio perchè la pagina non è stata scansionata, non è possibile vedere alcuno snippet nei risultati di ricerca.

Ma perchè Google mostra gli uncrawled url?
Cutts fa l'esempio del Dipartimento MotoVeicoli della California (dmv.ca.gov). Questo sito ha un robots.txt che blocca i motori di ricerca. Anche Ebay e altri siti adottano un comportamento simile.

Ma cercando su Google "California DMV" il primo sito che appare è proprio dmv.ca.gov. Anche se i proprietari del sito hanno bloccato il crawling, Google osserva che ci sono molte persone che linkano quella risorsa proprio con anchor text "California DMV".

Quindi se un utente cerca su Google "California DMV" è molto probabile che sia interessato al sito dmv.ca.gov. E' una risorsa rilevante e Google sceglie di mostrarla nonostante non sia stata neppure scansionata.

Se viene mostrato un uncrawled url, è perchè Google ha dedotto soltanto dagli anchor text e dal numero di inbound links, che quella particolare risorsa è rilevante per l'utente.

Spesso Google per ovviare all'assenza dello snippet, sceglie di mostrare come descrizione quella presente (eventualmente) nell'Open Directory Project.

Quindi a volte può apparire uno snippet che fa supporre che la pagina sia stata analizzata dal crawler. In realtà quella descrizione non proviene dal crawling.

Per molto tempo i siti di Nissan e Metallica hanno bloccato i motori con robots.txt, eppure nei risultati di ricerca i loro siti apparivano ugualmente con tanto di descrizione presa dall'Open Directory.

Google può mostrare risultati utili per gli utenti senza quindi violare le indicazioni contenute nel robots.txt.

Se vogliamo che le nostre pagine non appaiano nell'indice dobbiamo invece utilizzare il metatag NOINDEX.
Un altro modo è quello di utilizzare lo strumento di rimozione url negli strumenti per webmaster di Google.

antonico

Interessante davvero... anche se negli esempi riportati, il robots.txt non blocca i contenuti. Quello di ebay è il seguente:

BEGIN FILE

allow-all

The use of robots or other automated means to access the eBay site

without the express permission of eBay is strictly prohibited.

Notwithstanding the foregoing, eBay may permit automated access to

access certain eBay pages but soley for the limited purpose of

including content in publicly available search engines. Any other

use of robots or failure to obey the robots exclusion standards set

forth at <http://www.robotstxt.org/ wc/ exclusion.html> is strictly

prohibited.

v3

User-agent: *
Disallow: /help/confidence/
Disallow: /help/policies/
Disallow: /disney/

END FILE

Questo invece è di California DMV:
User-agent: *
Disallow: /flash
Disallow: /templates

fortunecat

E' vero ma puoi notare che, nonostante la cartella disney sia bloccata, sia stata comunque indicizzata. Guarda qui.

antonico

Si, giusto.. anche California DMV. Mi sa che ancora ho sonno... sorry