- Home
- Categorie
- Digital Marketing
- Google Analytics e Web Analytics
- robots.txt non raggiungibile
-
Rieccomi credo di aver trovato un indizio analizzando gli headers con il firebug
dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :
HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
Date: Tue, 04 Jun 2013 12:47:21 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Connection: Keep-Alive
Keep-Alive: timeout=5, max=100
Etag: "db-4de510ccf2fe0"Mentre questo è un header corretto di un'altro robots.txt di un'altro sito da me gestito.
HTTP/1.1 200 OK <------------------------------------------qua invece la risposta è corretta
Date: Tue, 04 Jun 2013 12:47:44 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Last-Modified: Tue, 23 Apr 2013 08:32:22 GMT
Etag: "6c-4db03062f7180"
Accept-Ranges: bytes
Content-Length: 108
Keep-Alive: timeout=5, max=100
Connection: Keep-Alive
Content-Type: text/plainqualcuno sa come risolvere l'errore 304 ??? . Ho inviato un ticket ad aruba e aspetto risposta...
-
Il 304 non è un errore.
Semplicemente il tuo file robots.txt ha settata una scadenza e dunque finché non scade la risorsa non viene richiesta.
-
Probabilmente la situazione è la seguente:
Google per evitare utilizzi impropri , sfrutta il meccanismo di caching; usando lo stesso ETag nella richiesta, il webserver risponde a Google dicendo "la pagina rispetto all'ultima volta non è cambiata" ( e questo giustificherebbe il 304 ).
il 304 lo risolvi soltanto modificando il contenuto del file e sottomettendo nuovamente la richiesta.
A scanso di equivoci fai una cosa:
Metti nel file robots.txt solo questa riga ->User-agent: *
e osservi se cambia qualcosa; qualora cambiasse significa che il problema è nella formattazione del file robots.txt; in alternativa insisti con il ticket verso aruba
-
Iceman...niente fatte le tue modifiche ho modificato il file (cancellato e ricreato il nuovo con la sola direttiva del post di sopra ) ma il server risponde sempre nella stessa maniera 304, secondo me finchè il server non risponde con codice 200 google non legge il file. Ora è da capire solo se ciò lo posso fare forzando la cosa nel .htaccess oppure è una cosa da settare nel modulo di apache del dell'hosting.
-
Cancella completamente il file robots.txt e con il 404 Google accederà alle risorse.
-
gia provato, anche se cancello il file il webmaster tool dice che robots.txt non è raggiungibile
-
Ma almeno ti torna un 404?
-
si , usando firebug nell'header torna il 404
-
a sto punto penso che è colpa del provider
-
Girando tra le varie discussioni dei google groups sul tema webmaster circola la voce che sia un "glitch" di google e che sia un problema abbastanza comune...
stamattina l'errore è cambiato ....da "robots.txt non raggiungibile" a "pagina non raggiungibile". Questa cosa avvalora l'ipotesi che il problema non è legato ne al provider (confermatomi oggi che non esiste alcun blocco ip) ne alla programmazione del sito.
-
Posto questo messaggio per chiudere il discorso e sperando sia di aiuto ad altri "incappati" nello stesso problema. Nel mio sito il tutto si è risolto verso 11 giugno (l'anomalia è iniziata 1 giugno).
Il problema a cui si fà riferimento è il tema principale della discussione cioe quando il webmaster tool indica che "Google non riesce ad accedere al sito" oppure segnala "robots.txt non raggiungibile" .
Come ho precedentemente scritto "potrebbe trattarsi di un glitch" quindi per capire se si tratta di un glitch o meno si dovrebbe in sequenza fare queste verifiche:Mandare un'email al gestore del Hosting per verificare se da parte loro vi è un blocco verso gli IP google (Veramente remoto perchè nessun hoster sarebbe cosi stupido e suicida)
Fare un test degli header http con qualche tool online e vedere se il server restituisce l'header corretto.
Verificare con un browser settato con User Agent Googlebot, se si riesce a recuperare la pagina. (firefox ha un plugin che permette di fare questo)
Controllare il file robots.txt e fare la verifica di esso tramite sempre qualche tool online (ceck della sintassi).Se dopo aver fatto tutto ciò non emerge alcuna anomalia è altamente problabile sia il glitch del GWT.
Non vi resta che attendere o scrivere sul forum di supporto google.
Io ho notato che effettivamente quando il googlebot inizia nuovamente ad accedere alle pagine, il GWT segnala la fine dell'errore dopo 3-4 giorni.
In pratica tra l'attività di scansione e i dati di monitoraggio che il GWT mostra sono ritardati mediamente 2 3 giorni.l'anomalia al mio sito si è presentata 1 giugno, verso l'11 il GWT ha eliminato l'errore,cmq io avevo installato un piccolo script nella mia home che rilevava il passaggio del googlebot. Lo script mi ha segnalato che già dal 7 di giugno il googlebot recuperava pagine e solo verso 11 il GWT ha finalmente recuperato la pagina.