Google: cosa considera un suggerimento e cosa invece una direttiva?

juanin

@kal considera però che bene o male anche per canonical, hreflang etc sono proposed standard in qualche RFC.

Il punto da considerare è che Google ha a che fare con un ecosistema entropico per sua natura e non necessariamente può fidarsi di come una pagina web implementa le cose per capire se un contenuto è buono.

Quindi verosimilmente a parte le cose "strict" che gli impediscono veramente di fare qualcosa per motivi tecnici il resto ogni qual volta ha la possibilità comunque di valutarlo lo valuta in modo soggettivo di caso in caso.

giorgiotave

Ci ho fatto il video che avevo promesso, grazie per aver partecipato

alepom

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Il punto da considerare è che Google ha a che fare con un ecosistema entropico per sua natura e non necessariamente può fidarsi di come una pagina web implementa le cose per capire se un contenuto è buono.

Sono molto d'accordo con questo aspetto.
Quante volte vi è capitato di imbattervi un qualche implementazione sbagliata del canonical?
In quel caso, l'intraprendenza di Google fa comodo

MaxxG

@giorgiotave ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Mentre una direttiva

Robots.txt

A me è capitato di ammattire per mesi vedendo dai log del server che Gbot continuava a visitare un centinaio di pagine al giorno (sprecando crawl budget) facenti parte di una sezione con circa 2500 pagine bloccate in robots.txt
Alla fine, mi era sfuggito un link interno che puntava alla sezione e Google lo seguiva ignorando bellamente la "direttiva".

giorgiotave

Però la direttiva è rispettata, tecnicamente non lo indicizza, non effettua l'indicizzazione della pagina, inserire solo l'url nel suo database e la rende rilevante solo per la ricerca con l'url stessa nei casi dei grandi brand.

Credo che sia corretto dire che la rispetti..

kal

@MaxxG ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Alla fine, mi era sfuggito un link interno che puntava alla sezione e Google lo seguiva ignorando bellamente la "direttiva".

Hmmm... Sarebbe oltremodo sorprendente. Sarebbe un bel bug.

Sicuro che il robots.txt fosse correttamente recepito e formattato correttamente?

merlinox

Secondo me entriamo nel mondo delle pippe nerdose: mi piace!
Dal mio punto di vista tendo a suddividere le direttive/suggerimenti dal punto di vista "fisico" ovvero dividendole in:

indicazioni logiche
indicazioni fisiche

Per cui:

3**/4** sono indicazioni fisiche inderogabili
canonical / meta robots / robots.txt sono suggerimenti: sta alla buona etica di Google rispettarli o meno

juanin

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi. E credo sia proprio quello che succede in questo caso. Ossia Google mantiene indicizzata la pagina perché ne trova riferimento, ma poi non può accedervi e dunque non la può verificare all'interno mostrando il noto messaggio in SERP tale per cui non riesce a leggere il contenuto della pagina nello snippet.

E' da escludere che scansioni pagine bloccate da robots.

merlinox

@MaxxG ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Alla fine, mi era sfuggito un link interno che puntava alla sezione e Google lo seguiva ignorando bellamente la "direttiva".

Mai mai mai successo.
Ci sono dei tempi di attesa minimali se aggiorni il robots.txt finché il bot è in scansione.
Ma non altro.

merlinox

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Ossia Google mantiene indicizzata la pagina perché ne trova riferimento

Giusto. Anche se questa cosa l'ho sempre vista su pagine precedentemente indicizzate, dove è stato usato il robots.txt per deindicizzare (cosa logicamente non corretta).

Ricordo ancora le pagine "trasparenza" di governo.it... in SERP per anni, anche se le avevano rimosse da ogni dove, tranne che nel robots.txt.

giorgiotave

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi.

Esatto, ma non è l'indicizzazione classica quella che avviene, infatti come dici non la scansiona. Possiamo dire che indicizza solo l'url, non il contenuto. No?

kal

@giorgiotave ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi.

Esatto, ma non è l'indicizzazione classica quella che avviene, infatti come dici non la scansiona. Possiamo dire che indicizza solo l'url, non il contenuto. No?

Indicizza l'unica cosa che conosce di quella risorsa, ovvero: l'URL.

In pratica una pagina bloccata da robots.txt rimane indicizzata, ma puramente come nodo ~~orfano~~ periferico nel link graph.

Fun fact: quella risorsa dovrebbe a quanto ne sappiamo ottenere un suo punteggio di pagerank (assieme ai segnali ad esso associati, come testo e contesto del link). E di fatto è l'unico segnale attribuibile alla risorsa, perché se Google è bloccato, l'onpage conta zero.

Per questo motivo capita che le pagine bloccate da robots.txt appaiano in SERP, a volte anche in buona posizione.

Ora che ci penso: sarebbe un esperimento super figo da fare per provare a fare reverse engineering del modello reasonable surfer applicato al pagerank... ARGH ad averci il tempo e la pazienza!

Però provo ad abbozzarlo così magari qualcuno di voi nerdacci raccoglie la palla.

Creiamo un sito con (poniamo) 5 pagine di alto livello, tutte simili ma non uguali e linkate tutte ugualmente nel menu principale.
In queste 5 pagine prepariamo altre 3 posizioni di template, ad esempio: main content, sidebar/navigazione secondaria, footer
in queste posizioni linkiamo 3 pagine differenti di secondo livello, e in competizione con la stessa keyword unica (inventata) usata nell'anchor text e nel nome della pagina
tutte le pagine di secondo livello le blocchiamo con il robots.txt

Facciamo una prova con le keyword e vediamo quale delle tre pagine bloccate compare in SERP con la dicitura "anteprima non visualizzata etc.".

Che ne pensate? C'è qualcosa da sistemare nel metodo?

juanin

@giorgiotave In che senso non è classica.
Gli spider non navigano il web. Lo scaricano.

Quindi creano delle liste di URL e poi provano a ottenerne il contenuto per farla semplice. Molto semplice. Stiamo banalizzando.

Quindi se pensiamo veramente che gli spider si comportino come un essere umano che naviga il web sbagliamo. Non c'è referral nelle richieste di un bot. C'è solo download a partire da un indice di URL.

Se quell'URL poi è bloccato lui non riuscirà a scaricarlo, ma sa che quel contenuto in qualche forma esiste.

Poi in quanto non in grado di valutarne il contenuto lui può decidere di capirne la valenza in base a segnali esterni (link) e dunque può anche posizionarli senza problemi.

Se ricordi anni fa avevamo bloccato volontariamente il sito lasettimanadellaformazione.com e bene si posizionava senza problemi per tutte le sue chiavi anche con sitelink sebbene Google non avesse modo di leggerne il contenuto.

giorgiotave

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Se quell'URL poi è bloccato lui non riuscirà a scaricarlo, ma sa che quel contenuto in qualche forma esiste.

Esatto. Quindi tecnicamente la direttiva viene rispettata. Oppure pensi che questo comportamento non la rispetti?

Se ricordi anni fa avevamo bloccato volontariamente il sito lasettimanadellaformazione.com e bene si posizionava senza problemi per tutte le sue chiavi anche con sitelink sebbene Google non avesse modo di leggerne il contenuto.

Yes, e questo probabilmente per i link come scrivevi su.

Quello che voglio dire è che se lui non legge il contenuto interno, anche se prende l'URL, la direttiva del Robots.txt dovrebbe essere rispettata.

Altrimenti si può far valere legamente il Robots.txt e fare causa a Google, qualcuno ha provato?

juanin

@giorgiotave è proprio quello che diciamo sopra.

Mi sembra molto strano che Google acceda risorse bloccate da robots.txt come scrive @MaxxG

MaxxG

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Mi sembra molto strano che Google acceda risorse bloccate da robots.txt come scrive @MaxxG

Sembra molto strano anche a me, eppure lo fa, ma del resto come hai ben spiegato un link può spingerlo a valutare il contenuto e posizionarlo e così ha fatto. Eliminati i link e richiesta la de-indicizzazione (via API, usando rankmath) finalmente il bot ha smesso di girare inutilmente dentro la sezione bloccata da robots.txt

juanin

@MaxxG hai qualcosa da farci vedere? Quale il robots è quali le URL accedute? Sei sicuro fosse Googlebot reale e non un fake?

merlinox

@MaxxG ho i medesimi dubbi di @juanin. Un conto è indicizzazione un altro è la scansione.
Google ne fa di ogni, ma almeno formalmente non passa su pagine bloccate da robots.txt, posso confermarlo anche io.
Che poi abbia altri bot che si presentino con qualsivoglia IP e qualsiavoglia agent, beh è un'altra storia

MaxxG

@juanin Dovrei poter recuperare i vecchi log e vedrò di validare i bot