Google: cosa considera un suggerimento e cosa invece una direttiva?

merlinox

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Ossia Google mantiene indicizzata la pagina perché ne trova riferimento

Giusto. Anche se questa cosa l'ho sempre vista su pagine precedentemente indicizzate, dove è stato usato il robots.txt per deindicizzare (cosa logicamente non corretta).

Ricordo ancora le pagine "trasparenza" di governo.it... in SERP per anni, anche se le avevano rimosse da ogni dove, tranne che nel robots.txt.

giorgiotave

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi.

Esatto, ma non è l'indicizzazione classica quella che avviene, infatti come dici non la scansiona. Possiamo dire che indicizza solo l'url, non il contenuto. No?

kal

@giorgiotave ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi.

Esatto, ma non è l'indicizzazione classica quella che avviene, infatti come dici non la scansiona. Possiamo dire che indicizza solo l'url, non il contenuto. No?

Indicizza l'unica cosa che conosce di quella risorsa, ovvero: l'URL.

In pratica una pagina bloccata da robots.txt rimane indicizzata, ma puramente come nodo ~~orfano~~ periferico nel link graph.

Fun fact: quella risorsa dovrebbe a quanto ne sappiamo ottenere un suo punteggio di pagerank (assieme ai segnali ad esso associati, come testo e contesto del link). E di fatto è l'unico segnale attribuibile alla risorsa, perché se Google è bloccato, l'onpage conta zero.

Per questo motivo capita che le pagine bloccate da robots.txt appaiano in SERP, a volte anche in buona posizione.

Ora che ci penso: sarebbe un esperimento super figo da fare per provare a fare reverse engineering del modello reasonable surfer applicato al pagerank... ARGH ad averci il tempo e la pazienza!

Però provo ad abbozzarlo così magari qualcuno di voi nerdacci raccoglie la palla.

Creiamo un sito con (poniamo) 5 pagine di alto livello, tutte simili ma non uguali e linkate tutte ugualmente nel menu principale.
In queste 5 pagine prepariamo altre 3 posizioni di template, ad esempio: main content, sidebar/navigazione secondaria, footer
in queste posizioni linkiamo 3 pagine differenti di secondo livello, e in competizione con la stessa keyword unica (inventata) usata nell'anchor text e nel nome della pagina
tutte le pagine di secondo livello le blocchiamo con il robots.txt

Facciamo una prova con le keyword e vediamo quale delle tre pagine bloccate compare in SERP con la dicitura "anteprima non visualizzata etc.".

Che ne pensate? C'è qualcosa da sistemare nel metodo?

juanin

@giorgiotave In che senso non è classica.
Gli spider non navigano il web. Lo scaricano.

Quindi creano delle liste di URL e poi provano a ottenerne il contenuto per farla semplice. Molto semplice. Stiamo banalizzando.

Quindi se pensiamo veramente che gli spider si comportino come un essere umano che naviga il web sbagliamo. Non c'è referral nelle richieste di un bot. C'è solo download a partire da un indice di URL.

Se quell'URL poi è bloccato lui non riuscirà a scaricarlo, ma sa che quel contenuto in qualche forma esiste.

Poi in quanto non in grado di valutarne il contenuto lui può decidere di capirne la valenza in base a segnali esterni (link) e dunque può anche posizionarli senza problemi.

Se ricordi anni fa avevamo bloccato volontariamente il sito lasettimanadellaformazione.com e bene si posizionava senza problemi per tutte le sue chiavi anche con sitelink sebbene Google non avesse modo di leggerne il contenuto.

giorgiotave

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Se quell'URL poi è bloccato lui non riuscirà a scaricarlo, ma sa che quel contenuto in qualche forma esiste.

Esatto. Quindi tecnicamente la direttiva viene rispettata. Oppure pensi che questo comportamento non la rispetti?

Se ricordi anni fa avevamo bloccato volontariamente il sito lasettimanadellaformazione.com e bene si posizionava senza problemi per tutte le sue chiavi anche con sitelink sebbene Google non avesse modo di leggerne il contenuto.

Yes, e questo probabilmente per i link come scrivevi su.

Quello che voglio dire è che se lui non legge il contenuto interno, anche se prende l'URL, la direttiva del Robots.txt dovrebbe essere rispettata.

Altrimenti si può far valere legamente il Robots.txt e fare causa a Google, qualcuno ha provato?

juanin

@giorgiotave è proprio quello che diciamo sopra.

Mi sembra molto strano che Google acceda risorse bloccate da robots.txt come scrive @MaxxG

MaxxG

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Mi sembra molto strano che Google acceda risorse bloccate da robots.txt come scrive @MaxxG

Sembra molto strano anche a me, eppure lo fa, ma del resto come hai ben spiegato un link può spingerlo a valutare il contenuto e posizionarlo e così ha fatto. Eliminati i link e richiesta la de-indicizzazione (via API, usando rankmath) finalmente il bot ha smesso di girare inutilmente dentro la sezione bloccata da robots.txt

juanin

@MaxxG hai qualcosa da farci vedere? Quale il robots è quali le URL accedute? Sei sicuro fosse Googlebot reale e non un fake?

merlinox

@MaxxG ho i medesimi dubbi di @juanin. Un conto è indicizzazione un altro è la scansione.
Google ne fa di ogni, ma almeno formalmente non passa su pagine bloccate da robots.txt, posso confermarlo anche io.
Che poi abbia altri bot che si presentino con qualsivoglia IP e qualsiavoglia agent, beh è un'altra storia

MaxxG

@juanin Dovrei poter recuperare i vecchi log e vedrò di validare i bot