Pagina indicizzata nonostante Disallow in robots.txt

nicola

Che l'indicizzazione della pagina fosse già schedulata mi pare strano dato che il robots.txt è stato uplodato praticamente insieme al resto del sito, solo qualche minuto dopo.
Comunque continuo a tenerla d'occhio giornalmente per verificare, eventualmente, dopo quanto tempo viene rimossa dall'indice.

stuart

@Nicola said:

Che l'indicizzazione della pagina fosse già schedulata mi pare strano dato che il robots.txt è stato uplodato praticamente insieme al resto del sito, solo qualche minuto dopo
Era un'ipotesi

Cordialmente,
Stuart

petro

è successo anche a me!!

il mio robots.txt:

User-agent: *
Disallow: /files/

http://www.geek-notes.com/robots.txt

[url=http://www.google.it/search?hs=ubo&hl=it&safe=off&c2coff=1&client=firefox-a&rls=org.mozilla%3Ait%3Aofficial&q=www.geek-notes.com%2Ffiles%2Fwp_plugin_posts_in_category.htm&btnG=Cerca&meta=lr%3Dlang_en%7Clang_it]in realtà è presente nell'indice

Sbaglio io o Google?

Devo usare il nofollow?

Tengo a precisare che il robots era così ed era presente da prima che creassi la cartella /files/ (e che linkassi quel file)

stuart

@petro said:

è successo anche a me!!
Opinion. May I?

Google non ha indicizzato quella pagina. Ne ha memorizzato l'esistenza in quanto URL linkato.
Ma non ha scaricato la pagina (non indicizzata, non archiviata).

Infatti richiamandola da Google è presente solo l'URL, non la versione cache.
Prova del nove, utilizzando il comando [url=http://66.249.93.104/search?hl=it&safe=off&c2coff=1&client=firefox-a&rls=org.mozilla%3Ait%3Aofficial&q=cache%3Awww.geek-notes.com%2Ffiles%2Fwp_plugin_posts_in_category.htm&btnG=Cerca&lr=lang_en%7Clang_it]CACHE:

Non spunta fuori proprio nulla....

Cordialmente,
Stuart

petro

Stuart, effettivamente hai ragione

Allora si può dire che la differenza tra una esclusione da robots e rel=nofollow sta nel fatto che il primo impedisce soltanto l'indicizzazione, mentre il secondo "impedisce" proprio al motore di considerare un link/pagina?

stuart

Uhm.
Il REL=NOFOLLOW indica appunto di non seguire il link presente su una pagina. Ciò però non toglie che a quella pagina lo spider possa arrivare per vie traverse.

Se proprio non si vuole che la propria pagina compaia nell'indice di Google (ma neanche come URL), si può usare il Meta Googlebot

In questo modo:

<meta name="Googlebot" content="text" />

dove text è sostituito dalle indicazioni specifiche che vuoi impartire allo spider di Google (noindex, nofollow ecc ecc..)

Per la lista completa dei comandi inseribili in Meta Googlebot puoi consultare questa pagina:
http://www.html-reference.com/META_name_googlebot.htm

Cordialmente,
Stuart

giorgiotave

Nicola di quale sito parli?

il primo in firma no.... visto che non ha la cache

Qual'è il sito? Vorrei controllare

nicola

@Giorgiotave said:

Qual'è il sito? Vorrei controllare

Il mio blog (di cui conosci l'url), quello da cui è iniziato tutto.. :neutral:

cibino

mi pare ci fosse anche un'altra discussione in cui, a questo punto, si metteva in dubbio l'effettiva efficacia del file robots.txt...:)

giorgiotave

@Nicola said:

Il mio blog (di cui conosci l'url), quello da cui è iniziato tutto.. :neutral:

Una che non c'entra....potresti mettere questa come prima riga di tutto?
Per test

User-agent: *
Disallow: /blog/wp-admin/
Disallow: /blog/wp-login.php

Ovviamente il robots.txt è scritto bene

Che strano, la cache è anche aggiornata: al 26 Agosto.

Dobbiamo scoprire il motivo però

nicola

@Giorgiotave said:

Una che non c'entra....potresti mettere questa come prima riga di tutto?
Per test

Cioè intendi mettere quelle righe, che ora stanno alla fine del file, all'inizio? Ok.. proviamo

giorgiotave

@Nicola said:

Cioè intendi mettere quelle righe, che ora stanno alla fine del file, all'inizio? Ok.. proviamo

Si proviamo, anche se non credo sia quello

E' possibile che incontri qualcosa di strano e si blocchi nella lettura?