Google: cosa considera un suggerimento e cosa invece una direttiva?

uale75

@giorgiotave Per sapere cosa Google "dice" di considerare un suggerimento o una direttiva basta leggere le pagine della Guida di Search Console.

Per esempio, nel caso del canonical, alla pagina dedicata si legge testualmente: Puoi indicare la tua preferenza a Google tramite queste tecniche, ma Google, per vari motivi, può comunque scegliere come canonica una pagina diversa da quella che preferiresti tu.

Per natura tendo sempre a provare sulla mia pelle le cose che afferma Google e sicuramente per questa posso affermare - senza alcun dubbio - che del canonical se ne strafrega alla grande se i segnali (degli utenti) sono altri. Ovviamente se i segnali degli utenti arrivano su una pagina non canonica per Google questa pagina sarà quella canonica.

Ovvero: il canonical non prevale sui segnali degli utenti.

Quando è che accade?
Nel 99,9% dei casi quando chi inserisce link interni non sa che sarebbe opportuno inserisse link a pagine canoniche. Ma non solo, ci sono anche altri casi come contenuti (con parametro nell'url per vari motivi) che vengono condivisi su tutti i social del mondo, tra parenti, genitori, amici, colleghi, inviati per email e chi più ne ha più ne metta, quando invece la pagina canonica corrispettiva non l'ha mai "vista" nessuno ed è relegata negli abissi del sito web.

Insomma su questo andrebbe fatta una massiva opera di sensibilizzazione

juanin

@giorgiotave che ti sei scordato la sitemap nei suggerimenti

kal

Sì, mi torna.

In generale sono direttive tutto ciò che ha a che fare col protocollo HTTP (status code, ci mettiamo anche x-robots-tag) o con standard web (robots.txt, sitemap.xml).

Ci sono però delle zone grigie.

Meta robots noindex è una direttiva.

Meta robots nofollow è un suggerimento:

https://twitter.com/methode/status/1171951127916699648

Ci metterei anche i dati strutturati. Sono una direttiva nel senso che per essere recepiti devono rispettare lo standard.

Ma sono un suggerimento nel senso che le rich snippet non sono automaticamente visibili in serp.

kal

Aggiungo: la gestione dei parametri in GSC.

https://twitter.com/ItsHogg/status/877442655290097667

giorgiotave

@kal ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Aggiungo: la gestione dei parametri in GSC.

https://twitter.com/ItsHogg/status/877442655290097667

Ottimo, direttiva.

Grazie per ora, farò un video su FastForward con tutte queste considerazioni

juanin

@kal considera però che bene o male anche per canonical, hreflang etc sono proposed standard in qualche RFC.

Il punto da considerare è che Google ha a che fare con un ecosistema entropico per sua natura e non necessariamente può fidarsi di come una pagina web implementa le cose per capire se un contenuto è buono.

Quindi verosimilmente a parte le cose "strict" che gli impediscono veramente di fare qualcosa per motivi tecnici il resto ogni qual volta ha la possibilità comunque di valutarlo lo valuta in modo soggettivo di caso in caso.

giorgiotave

Ci ho fatto il video che avevo promesso, grazie per aver partecipato

alepom

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Il punto da considerare è che Google ha a che fare con un ecosistema entropico per sua natura e non necessariamente può fidarsi di come una pagina web implementa le cose per capire se un contenuto è buono.

Sono molto d'accordo con questo aspetto.
Quante volte vi è capitato di imbattervi un qualche implementazione sbagliata del canonical?
In quel caso, l'intraprendenza di Google fa comodo

MaxxG

@giorgiotave ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Mentre una direttiva

Robots.txt

A me è capitato di ammattire per mesi vedendo dai log del server che Gbot continuava a visitare un centinaio di pagine al giorno (sprecando crawl budget) facenti parte di una sezione con circa 2500 pagine bloccate in robots.txt
Alla fine, mi era sfuggito un link interno che puntava alla sezione e Google lo seguiva ignorando bellamente la "direttiva".

giorgiotave

Però la direttiva è rispettata, tecnicamente non lo indicizza, non effettua l'indicizzazione della pagina, inserire solo l'url nel suo database e la rende rilevante solo per la ricerca con l'url stessa nei casi dei grandi brand.

Credo che sia corretto dire che la rispetti..

kal

@MaxxG ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Alla fine, mi era sfuggito un link interno che puntava alla sezione e Google lo seguiva ignorando bellamente la "direttiva".

Hmmm... Sarebbe oltremodo sorprendente. Sarebbe un bel bug.

Sicuro che il robots.txt fosse correttamente recepito e formattato correttamente?

merlinox

Secondo me entriamo nel mondo delle pippe nerdose: mi piace!
Dal mio punto di vista tendo a suddividere le direttive/suggerimenti dal punto di vista "fisico" ovvero dividendole in:

indicazioni logiche
indicazioni fisiche

Per cui:

3**/4** sono indicazioni fisiche inderogabili
canonical / meta robots / robots.txt sono suggerimenti: sta alla buona etica di Google rispettarli o meno

juanin

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi. E credo sia proprio quello che succede in questo caso. Ossia Google mantiene indicizzata la pagina perché ne trova riferimento, ma poi non può accedervi e dunque non la può verificare all'interno mostrando il noto messaggio in SERP tale per cui non riesce a leggere il contenuto della pagina nello snippet.

E' da escludere che scansioni pagine bloccate da robots.

merlinox

@MaxxG ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Alla fine, mi era sfuggito un link interno che puntava alla sezione e Google lo seguiva ignorando bellamente la "direttiva".

Mai mai mai successo.
Ci sono dei tempi di attesa minimali se aggiorni il robots.txt finché il bot è in scansione.
Ma non altro.

merlinox

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Ossia Google mantiene indicizzata la pagina perché ne trova riferimento

Giusto. Anche se questa cosa l'ho sempre vista su pagine precedentemente indicizzate, dove è stato usato il robots.txt per deindicizzare (cosa logicamente non corretta).

Ricordo ancora le pagine "trasparenza" di governo.it... in SERP per anni, anche se le avevano rimosse da ogni dove, tranne che nel robots.txt.

giorgiotave

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi.

Esatto, ma non è l'indicizzazione classica quella che avviene, infatti come dici non la scansiona. Possiamo dire che indicizza solo l'url, non il contenuto. No?

kal

@giorgiotave ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

concordo con @kal. Mi sembra altamente improbabile quello che asserisci @MaxxG

Inoltre @giorgiotave in realtà il fatto che sia bloccato da robots non ne impedisce l'indicizzazione anzi.

Esatto, ma non è l'indicizzazione classica quella che avviene, infatti come dici non la scansiona. Possiamo dire che indicizza solo l'url, non il contenuto. No?

Indicizza l'unica cosa che conosce di quella risorsa, ovvero: l'URL.

In pratica una pagina bloccata da robots.txt rimane indicizzata, ma puramente come nodo ~~orfano~~ periferico nel link graph.

Fun fact: quella risorsa dovrebbe a quanto ne sappiamo ottenere un suo punteggio di pagerank (assieme ai segnali ad esso associati, come testo e contesto del link). E di fatto è l'unico segnale attribuibile alla risorsa, perché se Google è bloccato, l'onpage conta zero.

Per questo motivo capita che le pagine bloccate da robots.txt appaiano in SERP, a volte anche in buona posizione.

Ora che ci penso: sarebbe un esperimento super figo da fare per provare a fare reverse engineering del modello reasonable surfer applicato al pagerank... ARGH ad averci il tempo e la pazienza!

Però provo ad abbozzarlo così magari qualcuno di voi nerdacci raccoglie la palla.

Creiamo un sito con (poniamo) 5 pagine di alto livello, tutte simili ma non uguali e linkate tutte ugualmente nel menu principale.
In queste 5 pagine prepariamo altre 3 posizioni di template, ad esempio: main content, sidebar/navigazione secondaria, footer
in queste posizioni linkiamo 3 pagine differenti di secondo livello, e in competizione con la stessa keyword unica (inventata) usata nell'anchor text e nel nome della pagina
tutte le pagine di secondo livello le blocchiamo con il robots.txt

Facciamo una prova con le keyword e vediamo quale delle tre pagine bloccate compare in SERP con la dicitura "anteprima non visualizzata etc.".

Che ne pensate? C'è qualcosa da sistemare nel metodo?

juanin

@giorgiotave In che senso non è classica.
Gli spider non navigano il web. Lo scaricano.

Quindi creano delle liste di URL e poi provano a ottenerne il contenuto per farla semplice. Molto semplice. Stiamo banalizzando.

Quindi se pensiamo veramente che gli spider si comportino come un essere umano che naviga il web sbagliamo. Non c'è referral nelle richieste di un bot. C'è solo download a partire da un indice di URL.

Se quell'URL poi è bloccato lui non riuscirà a scaricarlo, ma sa che quel contenuto in qualche forma esiste.

Poi in quanto non in grado di valutarne il contenuto lui può decidere di capirne la valenza in base a segnali esterni (link) e dunque può anche posizionarli senza problemi.

Se ricordi anni fa avevamo bloccato volontariamente il sito lasettimanadellaformazione.com e bene si posizionava senza problemi per tutte le sue chiavi anche con sitelink sebbene Google non avesse modo di leggerne il contenuto.

giorgiotave

@juanin ha detto in Google: cosa considera un suggerimento e cosa invece una direttiva?:

Se quell'URL poi è bloccato lui non riuscirà a scaricarlo, ma sa che quel contenuto in qualche forma esiste.

Esatto. Quindi tecnicamente la direttiva viene rispettata. Oppure pensi che questo comportamento non la rispetti?

Se ricordi anni fa avevamo bloccato volontariamente il sito lasettimanadellaformazione.com e bene si posizionava senza problemi per tutte le sue chiavi anche con sitelink sebbene Google non avesse modo di leggerne il contenuto.

Yes, e questo probabilmente per i link come scrivevi su.

Quello che voglio dire è che se lui non legge il contenuto interno, anche se prende l'URL, la direttiva del Robots.txt dovrebbe essere rispettata.

Altrimenti si può far valere legamente il Robots.txt e fare causa a Google, qualcuno ha provato?

juanin

@giorgiotave è proprio quello che diciamo sopra.

Mi sembra molto strano che Google acceda risorse bloccate da robots.txt come scrive @MaxxG