- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- un bookmarks del.icio.us in una serp di google?
-
un bookmarks del.icio.us in una serp di google?
Stavo controllando l'indicizzazione di alcune pagine di un sito che sto seguendo quando vedo fra i risultati delle serp di google anche un boobkmark di del.icio.us (risultato più risultato indentato). Se ripeto la ricerca per i risultati omessi mi viene fuori una paginata intera... premetto che ho inserito il di proposito nel mio bookmark il sito ma non pensavo realmente che potesse apparire in una query visto il tag:
<meta name="robots" content="noarchive,nofollow,noindex"/>tenete conto che ho inserito il nome del sito e una keyword...
-
Confronta il sorgente della pagina di del.icio.us contenente il bookmark con la sua copia nella cache di Google. Noterai che in quest'ultima manca il meta tag ROBOTS.
Ora confronta il robots.txt di del.icio.us con la copia nella cache di Google. A Googlebot e Slurp (lo spider di Yahoo!) viene servito un robots.txt “speciale”:
User-agent: * Disallow: / User-agent: delicious-thumbnails Allow: / User-agent: Slurp Allow: / Disallow: /inbox Disallow: /subscriptions Disallow: /network Disallow: /search Disallow: /post Disallow: /login Disallow: /rss User-agent: Googlebot Allow: / Disallow: /inbox Disallow: /subscriptions Disallow: /network Disallow: /search Disallow: /post Disallow: /login Disallow: /rss
Trattasi di cloaking basato sullo user-agent (se richiedi http://del.icio.us/robots.txt con User-agent:Googlebot/2.1 riceverai la versione speciale per Googlebot).
-
@Everfluxx said:
Ora confronta il robots.txt di del.icio.us con la copia nella cache di Google.
OK, ho appena notato che sono identici.
Fino a poco tempo fa il robots.txt "standard" di del.icio.us era siffatto:
User-agent: * Disallow: /
-
@Everfluxx said:
OK, ho appena notato che sono identici.
Fino a poco tempo fa il robots.txt "standard" di del.icio.us era siffatto:
User-agent: * Disallow: /
umh...ok scusa ma ne so poco di robot.txt.... Da quello che ho capito dici che viene servito un robot.txt differente in base allo spider che spiderizza il sito (pardon il bookmarks). Ok e questo lo fanno direttamente quelli di deilicious?!
Scusa ma non mi è chiaro...
-
@axxe16 said:
umh...ok scusa ma ne so poco di robot.txt.... Da quello che ho capito dici che viene servito un robot.txt differente in base allo spider che spiderizza il sito (pardon il bookmarks).
Esatto. Perlomeno, questo è quello che avveniva fino a pochissimo tempo fa. Ora invece viene servito lo stesso robots.txt a tutti gli user-agent, mentre invece cambia il contenuto delle pagine (a Googlebot e Slurp viene servito un documento privo del meta tag ROBOTS da te citato --cfr. i sorgenti con le rispettive copie nelle cache di Google e Yahoo!).
Ok e questo lo fanno direttamente quelli di deilicious?!
Sì. Lo scopo è presumibilmente quello di prevenire il crawling di del.icio.us da parte di bot non autorizzati.
-
Altro esempio di cloaking (a fin di bene) del robots.txt:
http://www.webmasterworld.com/robots.txt
@"Brett Tabke" said:
let's be honest: the robots.txt standard is useless at stopping rogue bots. I want to do a complete ban on all bots but the good search engine bots. How can you do that with thousands of bot names you don't know? ban 'em all, and then let the good bots in
-
@Everfluxx said:
Altro esempio di cloaking (a fin di bene) del robots.txt:
umh...ma allora, volendo posso unitilizzare delicious per posizionare indirettamente dei siti web...
Guarda anche in questo caso...http://www.google.it/search?hl=it&q=folkonomies+&btnG=Cerca&meta=lr%3Dlang_it
mha...
ora vado a vedere il mat che mi hai postato, ad ogni modo rimango perplesso. A quanto pare se qualcuno si mettesse di buona lena potrebbe riemire le serp di spam...anzi di bookmark di spam ^_^
-
@axxe16 said:
umh...ma allora, volendo posso unitilizzare delicious per posizionare indirettamente dei siti web...
Giusto: indirettamente, perché comunque i link da del.icio.us hanno tutti rel=nofollow (anche nella copia cache su Google, sì).Guarda anche in questo caso...
http://www.google.it/search?hl=it&q=folkonomies+&btnG=Cerca&meta=lr%3Dlang_it
Bello. Però si scrive folksonom[y|ies].
ad ogni modo rimango perplesso. A quanto pare se qualcuno si mettesse di buona lena potrebbe riemire le serp di spam...anzi di bookmark di spam ^_^ Non saprei. Probabilmente non è così facile spammare del.icio.us.
-
@Everfluxx said:
Bello. Però si scrive folksonom[y|ies].
bhe, lo so ma quando mi sono messo il link nel bookmark ho sbagliato... in questo caso posizionarmi è stato facile per una parola inesistente!!!