File robots.txt non funziona

cracci

File robots.txt non funziona

Salve a tutti nella root principale del mio sito ho il file robots.txt con delle regole che non vengono rispettate dallo spider di google. Qualcuno sa dirmi il perchè!?!??

Esempio:
User-agent: *
Disallow: /forgot.php

Oggi ho visto che lo spider è entrato nella pagina forgot.php
Forse può dipendere dal fatto che il file robots è stato messo dopo che lo spider ha scandagliato il sito una prima volta... e dopo non lo considera più avendo immagazzinato già informazioni riguardo la presenza della pagina forgot.php?!

Inoltre utilizzo questo script per vedere se lo spider di google passa per le mie pagine:
<?php if(eregi("googlebot",$HTTP_USER_AGENT))
{
if ($QUERY_STRING != "")
{$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;}
else
{$url = "http://".$SERVER_NAME.$PHP_SELF;}
$today = date("F j, Y, g:i a");
mail("[email protected]", "Googlebot detected on http://$SERVER_NAME", "$today - Google crawled $url");
} ?>

Nonostante abbia reso le mie pagine statiche attraverso il file .htaccess vedo che lo script mi dice che lo spider è passato per la pagina http://www.ricettenostrane.it/viewricetta.php?id_fls=35
non è che lo spider riesce ad eludere i link statici richiedendo l'indirizzo reale della pagina tramite le variabili lato server??!?!?

Grazie a tutti

beke

Oggi ho visto che lo spider è entrato nella pagina forgot.php
Forse può dipendere dal fatto che il file robots è stato messo dopo che lo spider ha scandagliato il sito una prima volta... e dopo non lo considera più avendo immagazzinato già informazioni riguardo la presenza della pagina forgot.php?! Ma lo spider è ripassato da file robots.txt dopo che hai inserito la riga di esclusione per quella pagina?

Nonostante abbia reso le mie pagine statiche attraverso il file .htaccess vedo che lo script mi dice che lo spider è passato per la pagina http://www.ricettenostrane.it/viewricetta.php?id_fls=35
non è che lo spider riesce ad eludere i link statici richiedendo l'indirizzo reale della pagina tramite le variabili lato server??!?!?Secondo me no, dipende esclusivamente dal fatto che la pagina esiste già nel suo DB, con quelle nuove non dovrebbe farlo. Quella corrispondente con l'url "staticizzato" te l'ha già presa?

Dovresti in ogni caso chiedere a Google di rimuovere la "vecchia" altrimenti in teoria puoi incorrere in problemi di contenuto duplicato.

http://www.google.it/intl/it/remove.html

Oppure studiare un meccanismo che ritorni un 301 alla richiesta della pagina con querystring.

cracci

Allora, non so se lo spider è passato per il file robots... trattandosi di un file txt non ho inserito lo script per vedere quando passa lo spider anche li. Quindi non so come vedere se è ripassato per il robots.txt. Per quanto riguarda le pagine statiche nuove, lo spider è passato in pagine nuove statiche ma tramite gli url dinamici e non capisco proprio il perchè. Addirittura alcune pagine le ho proprio spostate in un'altra cartella e le ho rese statiche. Ebbene lo spider le ha trovate ma a me lo script posta gli url dinamici e ciò mi fa venire dei dubbi. Tuttavia lo script che ho pubblicato prima mi posta le variabili lato server degli url delle pagine visitate... quindi può essere che a me arrivino le pagine dinamiche mentre lo spider visita quelle statiche. Giusto!?!?!?

Grazie

giorgiotave

Se escludi un file con il robots lui bassa e mette nel db solo il link, se non vado errato.....