Un caso da studio: sito noindex in prima posizione.

danilo.chiantia

In termini di effetti SEO credo che esista una differenza tra il noindex tramite meta e tramite Robots.txt

Corretto?

federico.sasso

Ciao Danilo!

@Danilo Chiantia said:

In termini di effetti SEO credo che esista una differenza tra il noindex tramite meta e tramite Robots.txt

Corretto?
So bene mi stai porgendo una domanda di cui conosci bene la risposta a beneficio d'altri utenti del forum... OK, abbocco

Vi sono tre modi di esprimere noindex, due ufficiali, e (parlo solo del caso di Google) uno "non ufficiale".

Tramite robots meta tag
aggiungendo nell'head del contenuto html della pagina il seguente meta tag:
[HTML]<meta name="robots" content="noindex" />[/HTML]
oppure
[HTML]<meta name="googlebot" content="noindex" />[/HTML]
per bloccare solo il web bot di google.

In questo caso il bot del motore di ricerca richiede al web server la pagina, la scarica, ne interpreta l'html per leggerne il meta tag, e poi "la scarta" dall'indice (in realtà memorizza l'URL e si segna di non mostrarlo).

Tramite header http
decorando l'header della risposta http con la seguente coppia nome-valore:

X-Robots-Tag: noindex

In questo caso il bot del motore di ricerca richiede al web server la pagina, ne legge l'header, ed è già in grado di decidere di scartare la pagina già prima di scaricarne il corpo.

Tramite direttiva noindex: in robots.txt
metodo non ufficiale, non ufficialmente supportato da Google.

Nella mia risposta precedende nel dire "bloccato da robots.txt" intendevo "bloccato da direttiva "Disallow:" nel robots.txt
es:

Disallow: /pagina-bloccata.html

In tale caso il bot non può richiedere la pagina, ma se vi sono link ritenuti importanti a essa, è possibile essa venga indicizzata e mostrata in SERP (di solito sono risultati visibili a fondo SERP cliccando un link esplicito, e al posto della meta descrizione vi è una nota a spiegare la risorsa è bloccata da robots.txt). Se la pagina avesse un meta robots noindex, il motore di ricerca non potrebbe saperlo; per questo alcune pagine noindex appaiono in SERP.

Google tuttavia ha implementato in via non ufficiale anche la direttiva "noindex:"

Noindex: /pagina-bloccata.html

L'effetto finale è analogo a quello dei casi precedenti, solo il processo è più efficiente perché non comporta azioni da parte del bot.
La direttiva è stata una proposta da molto tempo, tuttavia mai supportata ufficialmente dai motori di ricerca. Fu Enrico Altavilla a "scoprirne" l'uso in un robots.txt di Google, testare la direttiva e illustrarcela. John Mueller di Google confermò. Ovviamente entrambi sono stati molto rigorosi nel ricordare di non fare affidamento su correttezza di implementazione e supporto futuro della direttiva.

Spero d'essere stato utile a qualcuno

danilo.chiantia

"qualcuno" ringrazia

juanin

Io ho fatto parecchi test e nonostante una quantità notevole di +1 in presenza di noindex esclusivo sulla risorsa non c'è traccia in SERP (anche se nella documentazione di Google viene detto che la possibilità esiste come ha giustamente scritto Federico).

danilo.chiantia

Penso non debba essere esclusa l'eventualità che Google ha fornito qella specifica indicazione per forzare l'utilizzo di Google Plus. Ovviamente, mi auguro di sbagliarmi.

federico.sasso

@Juanin said:

Io ho fatto parecchi test e nonostante una quantità notevole di +1 in presenza di noindex esclusivo sulla risorsa non c'è traccia in SERP
Ora ricordo il tuo esperimento

Per la cronaca, non trovo più traccia nella documentazione di Google della famosa frase "may fetch and show that page even if it is disallowed in robots.txt or includes a meta noindex tag." (la pagina originale è redirezionata a una pagina generica oggi).

Ragionandoci un po', il bot deve poter ignorare il robots.txt in caso di condivisione +1, perché deve poter estrarre titolo e descrizione, ma è possibile - questo lo ipotizzo io, non è che lo sappia - il poter mostrare il contenuto in SERP nonostante il noindex non sia più vero.

juanin

Sì infatti per il robots.txt vale esattamente come dici e vale come in ogni altro caso così come il noindex e dunque non sembra esserci una regola particolare, ma semplicemente il comportamento classico.

gaetanom

Che bella discussione! Posso fare una domandina anche io? su un sito ho una landing composta da una pagina + un link ad una pagina "compra ora". Alla pagina "compra ora" ho settato il no-follow ma nonostante tutto negli strumenti per webmaster il caro bot me l'ha indicizzata ben 3 volte (dato che accodo delle variabili interne a seconda della call action). Mi spiegate perchè?

federico.sasso

Ciao GaetanoM,

@GaetanoM said:

su un sito ho una landing composta da una pagina + un link ad una pagina "compra ora". Alla pagina "compra ora" ho settato il no-follow ma nonostante tutto negli strumenti per webmaster il caro bot me l'ha indicizzata ben 3 volte (dato che accodo delle variabili interne a seconda della call action). Mi spiegate perchè?
Scusa, non mi è chiaro del tutto dalla domanda dove hai impostato nofollow.

Hai forse impostato l'attributo rel="nofollow" sul link che realizza il pulsante di Call To Action?
In tale caso è solo un'indicazione di non considerare il link per esplorare la pagina di destinazione, ma questa potrebbe essere raggiunta da altri percorsi. L'attributo non indica se indicizzare o meno la pagina, solo di non esplorarla a partire da quel preciso link.
Nota la sintassi, il valore dell'attributo è "nofollow", non "no-follow" come hai scritto.

Oppure hai impostato il seguente meta tag
[HTML]<meta name="robots" content="nofollow" />[/HTML]
sulla pagina di destinazione della call to action?
In tale caso avresti dovuto impostare
[HTML]<meta name="robots" content="noindex" />[/HTML]

Perdonami se ho fatto domande banali, ne sono stato costretto dall'ambiguità della domanda.

gaetanom

Si mi è chiaro l'errore ed è proprio quella la cosa che ho fatto il solo link nofollow. Come posso rimediare?

juanin

Molto dipende da quello che vuoi ottenere.

Da quello che ho capito devi ascoltare il consiglio di Federico che ti suggerisce un noindex sulla pagina da non indicizzare.
In alternativa se vuoi indicizzarla ma in una sola versione puoi usare il canonical.

gaetanom

se invece volessi non indicizzarla mai? cioè adesso è stata indicizzata ma è una pagina duplicata che è presente su più siti del network. Come muoversi?

juanin

Devi fare quello che ti ha scritto sopra Federico.

@Federico Sasso said:

In tale caso devi impostare
[HTML]<meta name="robots" content="noindex" />[/HTML]

gaetanom

si e per il fatto che l'ha indicizzata? come faccio a dire a google che non la voglio più in SERP?

juanin

Una volta messo quel meta tag, quando Google ripasserà sulla pagina, la eliminerà.

Se vuoi velocizzare la cosa puoi usare lo strumento di rimozione URL all'interno del webmaster tool oppure creare una sitemap con quegli indirizzi e pingarla.

gaetanom

Grazie mille Juanin sei stai gentilissimo e molto paziente. Farò così!