Comportamento dello spider di Google - Indicazioni SEO

giorgiotave

Comportamento dello spider di Google - Indicazioni SEO

All About Googlebot si intitola il post nel Blog Webmaster Central Blog di Google creato da Vanessa Fox per spiegare alcuni comportamenti di Googlebot.

Troverete sicuramente qualche indicazione interessante, come l'uso dello status 503 quando il sito è down per un aggiornamento.

Oppure la risposta a cosa è meglio usare, se il robots.txt o i meta robots tag. Alla fine ci segnala un tools per verificare il Robots.txt robots.txt analysis tool

Controllate in alto che vi fanno cambiare lingua ed impostate l'italiano.

Inoltre, consiglio il Robots-txt Checker di LowLevel

agoago

Vanessa "Volpe", che interviene su:

The Bot Obedience Course

assieme ad Dr. Rajat Mukherjee di Yahoo.

Come predetto (detto prima, da tempo) inizia la guerra sul robots, l'unico strumento non legalmente riconosciuto che permette ad ogni wm di illudersi di accettare in casa sua, in toto od in parte, un motore o spider che sia.

E questo i motori non possono permetterselo, non devono permetterlo.

Non rispettono (quando gli fa comodo) il file robots.

Non contenti inizieranno, con articoli - conferenze - dibattiti - autorevoli pareri di seo svendutissimi, la loro lenta ma inarrestabile campagna mirata a convincere ogni wm che nel caso il wm non li faccia entrare nella parte pubblica del suo sito sara' un mentecatto perche': "kiss traffic from the major search engines goodbye".

Hanno una faccia tosta che rasenta l'imbarazzante, e mi spiace l'esser certo fin da ora, che la quasi totalita' dei seo e dei wm finiranno con il convincersi che il loro lavoro dipendera' dagli umori dei motori e non viceversa.

I wm, attraverso il robots, tengono i motori per le "balle", e possono stringere a loro piacimento la morsa, fino a castrarli, dipende da cosa fa comodo ai wm, ma i wm decidono.

Non potendo delegittimare il robots in quanto standard, non potendo ignorarlo in toto in quanto passibili di critiche e stupore, ai motori non rimane altra scelta di convincerci di usare il robots con la massima parsimonia per la parte pubblica del sito, e possibilmente mai nei loro confronti.

Per quanto mi riguarda, in questo contesto, auguro una morte virtuale alla Vanessa Fox, seppellita da una risata, la mia.

ray71

Scusa Ago, ma non capisco il tuo post, potresti chiarificare qualche punto ?

@agoago said:

Come predetto (detto prima, da tempo) inizia la guerra sul robots, l'unico strumento non legalmente riconosciuto che permette ad ogni wm di illudersi di accettare in casa sua, in toto od in parte, un motore o spider che sia.

Qual e' il tuo problema, che i motori entrino o non entrino nel tuo sito ?!

@agoago said:

E questo i motori non possono permetterselo, non devono permetterlo.

Cosa non possono permettersi ?

@agoago said:

Non rispettano (quando gli fa comodo) il file robots.

Questo non mi risulta.

@agoago said:

Non contenti inizieranno, con articoli - conferenze - dibattiti - autorevoli pareri di seo svendutissimi, la loro lenta ma inarrestabile campagna mirata a convincere ogni wm che nel caso il wm non li faccia entrare nella parte pubblica del suo sito sara' un mentecatto perche': "kiss traffic from the major search engines goodbye".

Questa poi... se non vuoi che il tuo sito venga visitato dagli spider come fa ad essere indicizzato ?
Non colgo l'ironia...

Il resto del post e' un delirio incomprensibile (almeno per me).

Quello che pubblichi su un sito e' accessibile a tutti (a meno che non utilizzi password per l'accesso etc.), quindi in teoria non solo utenti in carne e ossa ma anche gli utenti "software" sono tecnicamente in grado e implicitamente autorizzati ad accedere a quei contenuti.

Se i motori di ricerca rispettano il protocollo del robots.txt, e' gia' un favore che ti fanno: evitano gentilmente di accedere a dei contenuti che tu hai messo a disposizione di tutti ma che non vuoi che finiscano tra i risultati di una ricerca.

Certamente c'e' qualcosa che mi sfugge, ma dal tuo messaggio non e' molto chiaro cosa sia.

Se puoi spiegarmelo meglio magari lo capisco anch'io.

Grazie,

F.

agoago

Ray71 scrive:

"Qual e' il tuo problema, che i motori entrino o non entrino nel tuo sito ?!"

Ok, a volte scrivo dando per scontato che si conoscano i "precedenti", me ne scuso.

Il sito di un wm e' roba sua, non appartiene a nessun altro, il wm fa del suo sito cosa vuole, se vuole lo mette online solo di domenica, o puo' decidere che tutti gli utenti che hanno un ip che inizia con 2 non possano accedervi (non bello-corretto da fare, ma rende l'idea).

Pertanto un wm, deve poter essere libero ma soprattutto certo, che tutti rispettino la sua volonta'.

Nel caso dei motori la porta della casa-sito si apre e si chiude (in teoria) in base al file robots. Il wm nel suo robots scrive-ordina chi puo' spiderizzare o no tutto o parte del suo sito.

E' un suo diritto.
Ma questo suo diritto, nel caso del robots, non e' avvalorato da nessuna norma-legge. Un robots puo' essere o non essere rispettato.

"Cosa non possono permettersi ?"

Immagina che tua sia un azionista di un motore, per esempio Google.
Google e' un motore eccezionale, pertanto tu azionista sai che i tuoi soldi son ben riposti, perche' salvo impossibili follie da parte di G, G avra' sempre una buona fetta del mercato.

Ma se per un qualsiasi motivo, i primi 5000 wm-siti al mondo decidessero di bloccare G via robots, magari per soli 6 mesi, il valore di G crollerebbe.

La coca cola non puo' perdere mercato-valore se non in modo lento e gestibile in quanto il suo successo dipende dai gusto di miliardi di persone.

Ma se passasse il diritto giuridico di un wm di bloccare un motore via robots ecco che tu azionista sapresti che il tuo investimento sarebbe sempre a rischio a seconda degli umori di poche migliaia di wm.

Se tu fossi il signor google, msn, yahoo, potresti permettertelo-permetterlo?

"Questo non mi risulta."

I motori normalmente rispettono i robots, ma prova a leggere nei form dedicati o a gestire molti siti e ti accorgerai delle continue eccezioni.

"Questa poi... se non vuoi che il tuo sito venga visitato dagli spider come fa ad essere indicizzato ?"

Se non voglio che sia spiderizzato e' propio perche' non desidero che venga indicizzato da un dato motore. E' un mio-tuo diritto, o almeno dovrebbe....

"Il resto del post e' un delirio incomprensibile (almeno per me)."

Mi spiace sia incomprensibile, cerco sempre di spiegarmi, che sia un delirio ci puo' stare, se parli con un anestesista ti dira' che dopo un operazione il paziente tende a delirare mostrando esattamente la sua natura. Chi se la dorme della beata, chi insulta il mondo, chi si rigira come morso da una tarantola... Il delirio e' come il vino, pieno di verita'.

"Se i motori di ricerca rispettano il protocollo del robots.txt, e' gia' un favore che ti fanno:..."

Ray71 spero che questa affermazione sia stata dettata dalla foga, viceversa e' peggio di quanto pensassi, e' iniziato il lavaggio di massa.

Ray71 i motori, in casa tua, in casa mia, devono fare cosa vogliamo noi, non cosa preferiscono loro.

Per pieta'... almeno a casa nostra, siamo re e non sudditi.

ray71

@agoago said:

Il sito di un wm e' roba sua, non appartiene a nessun altro, il wm fa del suo sito cosa vuole, se vuole lo mette online solo di domenica, o puo' decidere che tutti gli utenti che hanno un ip che inizia con 2 non possano accedervi (non bello-corretto da fare, ma rende l'idea).

Pertanto un wm, deve poter essere libero ma soprattutto certo, che tutti rispettino la sua volonta'.

Nel caso dei motori la porta della casa-sito si apre e si chiude (in teoria) in base al file robots. Il wm nel suo robots scrive-ordina chi puo' spiderizzare o no tutto o parte del suo sito.

E' un suo diritto.
Ma questo suo diritto, nel caso del robots, non e' avvalorato da nessuna norma-legge. Un robots puo' essere o non essere rispettato.

Questo e' chiaro, ma se non con robots.txt, come potresti decidere chi puo' spiderizzare o no il tuo sito ?
Considera anche che i principali motori di ricerca sono anzi cosi' corretti da presentarsi con un User-Agent che li possa identificare: nessuno gli vieta di presentarsi come Mozilla o Explorer (e risolvere completamente il problema del Cloaking).

O forse ti riferisci a qualche episodio in particolare dove il tuo file robots.txt non e' stato rispettato ?

@agoago said:

Immagina che tua sia un azionista di un motore, per esempio Google.
Google e' un motore eccezionale, pertanto tu azionista sai che i tuoi soldi son ben riposti, perche' salvo impossibili follie da parte di G, G avra' sempre una buona fetta del mercato.

Ma se per un qualsiasi motivo, i primi 5000 wm-siti al mondo decidessero di bloccare G via robots, magari per soli 6 mesi, il valore di G crollerebbe.

Beh, probabilmente anche il traffico di molti di quei siti crollerebbe e altri siti prenderebbero il loro posto

@agoago said:

La coca cola non puo' perdere mercato-valore se non in modo lento e gestibile in quanto il suo successo dipende dai gusto di miliardi di persone.

Ma se passasse il diritto giuridico di un wm di bloccare un motore via robots ecco che tu azionista sapresti che il tuo investimento sarebbe sempre a rischio a seconda degli umori di poche migliaia di wm.

Tra l'altro credo che robots.txt abbia valore giuridico ed equivalga a un cartello "no trespassing" (appena trovo qualche dettaglio in proposito lo posto, probabilmente lunedi).

@agoago said:

Se tu fossi il signor google, msn, yahoo, potresti permettertelo-permetterlo?

Mah, se un sito non vuole essere indicizzato e libero di farlo (e ha i mezzi per farlo). Certo non deve poi lamentarsi se non riceve traffico dai motori di ricerca.
Ma non credo si corra il rischio che i maggiori siti internet facciano questa scelta.

Allo stesso modo, i principali motori di ricerca potrebbero mettersi d'accordo e "cancellare" dall'indice i maggiori siti del mondo (e allo stesso modo il loro traffico diminuirebbe in favore di motori minori ma con almeno i siti principali nel loro indice).

@agoago said:

"Questo non mi risulta."

I motori normalmente rispettono i robots, ma prova a leggere nei form dedicati o a gestire molti siti e ti accorgerai delle continue eccezioni.

Puo' darsi, anche se immagino spesso si tratti di errori nel "robots.txt" piu' che di malafede negli spiders.

@agoago said:

"Questa poi... se non vuoi che il tuo sito venga visitato dagli spider come fa ad essere indicizzato ?"

Se non voglio che sia spiderizzato e' propio perche' non desidero che venga indicizzato da un dato motore. E' un mio-tuo diritto, o almeno dovrebbe....

Un diritto che viene rispettato (a meno che non metti il "robots.txt" quando ormai e' troppo tardi, in quel caso ci vuole un bel po' di tempo prima che le tracce del tuo sito spariscano dagli indici).

@agoago said:

[...]
"Se i motori di ricerca rispettano il protocollo del robots.txt, e' gia' un favore che ti fanno:..."

Ray71 spero che questa affermazione sia stata dettata dalla foga, viceversa e' peggio di quanto pensassi, e' iniziato il lavaggio di massa.

Ma che lavaggio e lavaggio! Sara' che io non sono un wm e quindi vedo Google come un "amico" o almeno uno strumento utile e non come un avversario/nemico da battere.

@agoago said:

Ray71 i motori, in casa tua, in casa mia, devono fare cosa vogliamo noi, non cosa preferiscono loro.

Per pieta'... almeno a casa nostra, siamo re e non sudditi.

Ok, insomma parli proprio come se i robots.txt venissero semplicemente ignorati dai motori.
Se ti e' capitato che un motore ignorasse il tuo robots.txt e visitasse comunque delle sezioni "proibite" del tuo sito potresti condividere qualche dettaglio in proposito ? O parli in generale (ma allora non capisco a cosa ti riferisci: vuoi che i bot ti leggano nel pensiero invece di leggere il robots.txt ? )

Saluti

F.

agoago

Ray71, non stiamo dicendo tu bianco ed io nero.
Tutto il mio dire verte su un aspetto a me caro:

"Un robots puo' essere o non essere rispettato."

Questo non significa che i migliori motori spesso non rispettino il robots.
Puo' succedere, probabilmente in casi molto rari, ed ancora piu' probabilmente per questioni tecniche e non per loro scelte-politiche aziendali.

Quello che non mi piace, che mi disturba, e' che in tanti anni non si sia dato nessun valore pseudo-legale al robots.

Faccio un esempio. Hai un bel sito, vorresti che fosse indicizzato dai migliori motori ma non vuoi che nessun altro ti consumi banda su banda spiderizzandotelo, magari per cercare indirizzi email, per guardarselo in locale, per raccogliere immagini, etc etc

Allora metti un robots che dichiara che solo 3-4 motori possono spiderizzarti il sito, gli altri bot no.

Bene, io lancio un teleportpro, ti spiderizzo-duplico il sito, e tu non puoi farci nulla.

Magari ti ho rallentato il server, ti ho intasato la linea, ti ho duplicato automaticamente migliaia di pagine magari al solo fine di guardarmele in locale (ed addio incassi adsense) e tu non puoi dirmi nulla.

Vedi il mio ip, risali e mi scrivi dicendo che non ho rispettato il tuo robots ed io ti rispondo: nel web i robots posso essere legalmente ignorati.

nbriani

aggiungo un elemento alla discussione.. dal blog di Matt Cutts (differenze nella considerazione del tag noindex da parte dei big)

Nicola