Disallow nel robots.txt e noindex

mauro848

Disallow nel robots.txt e noindex

Ciao a Tutti,

Inserire nel file robots.txt un DISALLOW per un determinato file (es. Disallow: /cartella/pagina.php o mettere) o mettere all'interno del file pagina.php l'attributo noindex, equivale a fare la stessa cosa?

In entrambi i casi il file non verrà indicizzato dai motori?

Mauro

marco.quadrella

Ciao mauro848.

Il disallow ed il noindex sono 2 cose differenti: il primo in particolare non evita necessariamente l'indicizzazione (intesa come presenza della url nelle serp).

Cerco di approfondire.
Primo caso: pagina A bloccata attraverso file robots.txt.
Google trova l'indirizzo della pagina A, lo inserisce nel suo indice ma non accede alla pagina. Valutando fattori off-page (numero di link in ingresso ad A, pertinenza del dominio a cui appartiene, ecc.) tenta di stabilire un valore per quella pagina (che non ha mai visto) e di conseguenza la restituisce nei risultati di ricerca (mostrando solo l'url). La pagina A non darà problemi di contenuti duplicati, visto che Google non conosce nulla sui suoi reali contenuti.
Tutto il PageRank in ingresso ad A ne aiuta il ranking, ma da A non fluisce in alcuna direzione.

Secondo caso: pagina B con l'attributo "noindex, follow".
Google trova l'indirizzo alla pagina B, la scansiona in cerca di link e non indicizza la pagina. B non verrà in nessun caso restituita nei risultati di ricerca, però verrà periodicamente visitata per monitorare i collegamenti. Anche B non darà alcun problema di duplicazione, ma farà spendere al bot di Google qualche risorsa in più.
Il PageRank in ingresso a B non influisce sulla presenza in serp della pagina (che non avverrà mai), ma scorre normalmente verso tutte le pagine collegate.

Spero di essere stato sufficientemente chiaro, in caso contrario ti invito a domandare ancora.

mauro848

@LaBussola said:

Ciao mauro848.

Cerco di approfondire.
Primo caso: pagina A bloccata attraverso file robots.txt.
Google trova l'indirizzo della pagina A, lo inserisce nel suo indice ma non accede alla pagina. Valutando fattori off-page (numero di link in ingresso ad A, pertinenza del dominio a cui appartiene, ecc.) tenta di stabilire un valore per quella pagina (che non ha mai visto) e di conseguenza la restituisce nei risultati di ricerca (mostrando solo l'url).

Grazie per le argomentazioni.

Approfitto e ti chiedo altre indicazioni

Non mi è mai capitato di vedere nei risultati di ricerca solo l'URL potresti indicarmi un caso?

Sapresti suggerire in che casi è da preferire il noindex e in quali disallow?
Quanto tempo impiega google ad aggiornare i sui dati una volta che sono state apportate queste modifiche?

Mauro

marco.quadrella

Non capita quasi mai di trovarsi davanti alla sola url, soprattutto se non ci si fa caso.

Solitamente succede per termini per i quali il sito è molto linkato: in passato eBay era primo per la relativa ricerca, pur non concedendo l'accesso ai motori.
Ora ho trovato l'esempio di Badoo (un social network molto giovanile con oltre 60.000.000 iscritti). Questa è la serp (molto competitiva) ed il secondo risultato riporta una pagina bloccata da robots.txt.

In generale basta aprire il robots.txt di un sito e digitare in Google site:nomesito.com/nomecartellabloccata.

Per quanto riguarda la seconda e la terza domanda, penso tu abbia già ricevuto risposta qui. Se così non dovesse essere poni altre domande ma cerchiamo d'ora in avanti di separare i due threads.

lionard84

Grazie, interessava anche a me !