robots.txt non raggiungibile

frankmogan

Rieccomi credo di aver trovato un indizio analizzando gli headers con il firebug

dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :

HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
Date: Tue, 04 Jun 2013 12:47:21 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Connection: Keep-Alive
Keep-Alive: timeout=5, max=100
Etag: "db-4de510ccf2fe0"

Mentre questo è un header corretto di un'altro robots.txt di un'altro sito da me gestito.

HTTP/1.1 200 OK <------------------------------------------qua invece la risposta è corretta
Date: Tue, 04 Jun 2013 12:47:44 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Last-Modified: Tue, 23 Apr 2013 08:32:22 GMT
Etag: "6c-4db03062f7180"
Accept-Ranges: bytes
Content-Length: 108
Keep-Alive: timeout=5, max=100
Connection: Keep-Alive
Content-Type: text/plain

qualcuno sa come risolvere l'errore 304 ??? . Ho inviato un ticket ad aruba e aspetto risposta...

juanin

Il 304 non è un errore.

Semplicemente il tuo file robots.txt ha settata una scadenza e dunque finché non scade la risorsa non viene richiesta.

iceman84

Probabilmente la situazione è la seguente:
Google per evitare utilizzi impropri , sfrutta il meccanismo di caching; usando lo stesso ETag nella richiesta, il webserver risponde a Google dicendo "la pagina rispetto all'ultima volta non è cambiata" ( e questo giustificherebbe il 304 ).
il 304 lo risolvi soltanto modificando il contenuto del file e sottomettendo nuovamente la richiesta.
A scanso di equivoci fai una cosa:
Metti nel file robots.txt solo questa riga ->

User-agent: *

e osservi se cambia qualcosa; qualora cambiasse significa che il problema è nella formattazione del file robots.txt; in alternativa insisti con il ticket verso aruba

frankmogan

Iceman...niente fatte le tue modifiche ho modificato il file (cancellato e ricreato il nuovo con la sola direttiva del post di sopra ) ma il server risponde sempre nella stessa maniera 304, secondo me finchè il server non risponde con codice 200 google non legge il file. Ora è da capire solo se ciò lo posso fare forzando la cosa nel .htaccess oppure è una cosa da settare nel modulo di apache del dell'hosting.

juanin

Cancella completamente il file robots.txt e con il 404 Google accederà alle risorse.

frankmogan

gia provato, anche se cancello il file il webmaster tool dice che robots.txt non è raggiungibile

juanin

Ma almeno ti torna un 404?

frankmogan

si , usando firebug nell'header torna il 404

frankmogan

a sto punto penso che è colpa del provider

frankmogan

Girando tra le varie discussioni dei google groups sul tema webmaster circola la voce che sia un "glitch" di google e che sia un problema abbastanza comune...
stamattina l'errore è cambiato ....da "robots.txt non raggiungibile" a "pagina non raggiungibile". Questa cosa avvalora l'ipotesi che il problema non è legato ne al provider (confermatomi oggi che non esiste alcun blocco ip) ne alla programmazione del sito.

frankmogan

Posto questo messaggio per chiudere il discorso e sperando sia di aiuto ad altri "incappati" nello stesso problema. Nel mio sito il tutto si è risolto verso 11 giugno (l'anomalia è iniziata 1 giugno).

Il problema a cui si fà riferimento è il tema principale della discussione cioe quando il webmaster tool indica che "Google non riesce ad accedere al sito" oppure segnala "robots.txt non raggiungibile" .
Come ho precedentemente scritto "potrebbe trattarsi di un glitch" quindi per capire se si tratta di un glitch o meno si dovrebbe in sequenza fare queste verifiche:

Mandare un'email al gestore del Hosting per verificare se da parte loro vi è un blocco verso gli IP google (Veramente remoto perchè nessun hoster sarebbe cosi stupido e suicida)
Fare un test degli header http con qualche tool online e vedere se il server restituisce l'header corretto.
Verificare con un browser settato con User Agent Googlebot, se si riesce a recuperare la pagina. (firefox ha un plugin che permette di fare questo)
Controllare il file robots.txt e fare la verifica di esso tramite sempre qualche tool online (ceck della sintassi).

Se dopo aver fatto tutto ciò non emerge alcuna anomalia è altamente problabile sia il glitch del GWT.

Non vi resta che attendere o scrivere sul forum di supporto google.

Io ho notato che effettivamente quando il googlebot inizia nuovamente ad accedere alle pagine, il GWT segnala la fine dell'errore dopo 3-4 giorni.
In pratica tra l'attività di scansione e i dati di monitoraggio che il GWT mostra sono ritardati mediamente 2 3 giorni.

l'anomalia al mio sito si è presentata 1 giugno, verso l'11 il GWT ha eliminato l'errore,cmq io avevo installato un piccolo script nella mia home che rilevava il passaggio del googlebot. Lo script mi ha segnalato che già dal 7 di giugno il googlebot recuperava pagine e solo verso 11 il GWT ha finalmente recuperato la pagina.

dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :

HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google Date: Tue, 04 Jun 2013 12:47:21 GMT Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7 Connection: Keep-Alive Keep-Alive: timeout=5, max=100 Etag: "db-4de510ccf2fe0"

HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
Date: Tue, 04 Jun 2013 12:47:21 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Connection: Keep-Alive
Keep-Alive: timeout=5, max=100
Etag: "db-4de510ccf2fe0"