robots.txt non raggiungibile

frankmogan

accatittippi // imageshack.us/f/811/robotsn.jpg/

razie ancora a tutti per l'interessamento....Allora ho fatto come mi hai consigliato tu Iceman, ho corretto il file robots.txt con il tool online, ho provato a recuperare la pagina dal webmaster tool con il nuovo file ma il niente, stesso risultato (come evidenziato in giallo nella foto allegata) .
Dopodichè ho cancellato completamente il file robots.txt, ritentato il recupero ma ancora lo stesso errore (evidenziato in rosso nella foto allegata).
Ho inviato lo stesso screeshot ad aruba ma ancora non mi hanno risposto.

Potrebbe essere un errore, un bug di google???

Su Strumenti per il webmaster mi indica :
/-------------------------------------------
Errori del sito Sono visualizzati i dati degli ultimi 90 giorni

Google non è riuscita a sottoporre a scansione il tuo sito perché non siamo stati in grado di accedere al file robots.txt.robots.txt.

/-------------------------------------------

questo è il messaggio di errore di google (copia incolla)...in pratica scrive due volte robots.txt.robots.txt

juanin

Se provi a fare il fetch di altre pagine che non siano il robots.txt cosa ti dice?

frankmogan

stessa cosa...file robots.txt non raggiungibile, l'hosting aruba sta dando risposte evasive .tipo "controlla il file, non abbiamo trovato il file" può essere che essendo un hosting base loro bloccano il googlebot??? considerando che negli ultimi gioni c'era una visita del bot quasi ogni 10 min.

frankmogan

Rieccomi credo di aver trovato un indizio analizzando gli headers con il firebug

dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :

HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
Date: Tue, 04 Jun 2013 12:47:21 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Connection: Keep-Alive
Keep-Alive: timeout=5, max=100
Etag: "db-4de510ccf2fe0"

Mentre questo è un header corretto di un'altro robots.txt di un'altro sito da me gestito.

HTTP/1.1 200 OK <------------------------------------------qua invece la risposta è corretta
Date: Tue, 04 Jun 2013 12:47:44 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Last-Modified: Tue, 23 Apr 2013 08:32:22 GMT
Etag: "6c-4db03062f7180"
Accept-Ranges: bytes
Content-Length: 108
Keep-Alive: timeout=5, max=100
Connection: Keep-Alive
Content-Type: text/plain

qualcuno sa come risolvere l'errore 304 ??? . Ho inviato un ticket ad aruba e aspetto risposta...

juanin

Il 304 non è un errore.

Semplicemente il tuo file robots.txt ha settata una scadenza e dunque finché non scade la risorsa non viene richiesta.

iceman84

Probabilmente la situazione è la seguente:
Google per evitare utilizzi impropri , sfrutta il meccanismo di caching; usando lo stesso ETag nella richiesta, il webserver risponde a Google dicendo "la pagina rispetto all'ultima volta non è cambiata" ( e questo giustificherebbe il 304 ).
il 304 lo risolvi soltanto modificando il contenuto del file e sottomettendo nuovamente la richiesta.
A scanso di equivoci fai una cosa:
Metti nel file robots.txt solo questa riga ->

User-agent: *

e osservi se cambia qualcosa; qualora cambiasse significa che il problema è nella formattazione del file robots.txt; in alternativa insisti con il ticket verso aruba

frankmogan

Iceman...niente fatte le tue modifiche ho modificato il file (cancellato e ricreato il nuovo con la sola direttiva del post di sopra ) ma il server risponde sempre nella stessa maniera 304, secondo me finchè il server non risponde con codice 200 google non legge il file. Ora è da capire solo se ciò lo posso fare forzando la cosa nel .htaccess oppure è una cosa da settare nel modulo di apache del dell'hosting.

juanin

Cancella completamente il file robots.txt e con il 404 Google accederà alle risorse.

frankmogan

gia provato, anche se cancello il file il webmaster tool dice che robots.txt non è raggiungibile

juanin

Ma almeno ti torna un 404?

frankmogan

si , usando firebug nell'header torna il 404

frankmogan

a sto punto penso che è colpa del provider

frankmogan

Girando tra le varie discussioni dei google groups sul tema webmaster circola la voce che sia un "glitch" di google e che sia un problema abbastanza comune...
stamattina l'errore è cambiato ....da "robots.txt non raggiungibile" a "pagina non raggiungibile". Questa cosa avvalora l'ipotesi che il problema non è legato ne al provider (confermatomi oggi che non esiste alcun blocco ip) ne alla programmazione del sito.

frankmogan

Posto questo messaggio per chiudere il discorso e sperando sia di aiuto ad altri "incappati" nello stesso problema. Nel mio sito il tutto si è risolto verso 11 giugno (l'anomalia è iniziata 1 giugno).

Il problema a cui si fà riferimento è il tema principale della discussione cioe quando il webmaster tool indica che "Google non riesce ad accedere al sito" oppure segnala "robots.txt non raggiungibile" .
Come ho precedentemente scritto "potrebbe trattarsi di un glitch" quindi per capire se si tratta di un glitch o meno si dovrebbe in sequenza fare queste verifiche:

Mandare un'email al gestore del Hosting per verificare se da parte loro vi è un blocco verso gli IP google (Veramente remoto perchè nessun hoster sarebbe cosi stupido e suicida)
Fare un test degli header http con qualche tool online e vedere se il server restituisce l'header corretto.
Verificare con un browser settato con User Agent Googlebot, se si riesce a recuperare la pagina. (firefox ha un plugin che permette di fare questo)
Controllare il file robots.txt e fare la verifica di esso tramite sempre qualche tool online (ceck della sintassi).

Se dopo aver fatto tutto ciò non emerge alcuna anomalia è altamente problabile sia il glitch del GWT.

Non vi resta che attendere o scrivere sul forum di supporto google.

Io ho notato che effettivamente quando il googlebot inizia nuovamente ad accedere alle pagine, il GWT segnala la fine dell'errore dopo 3-4 giorni.
In pratica tra l'attività di scansione e i dati di monitoraggio che il GWT mostra sono ritardati mediamente 2 3 giorni.

l'anomalia al mio sito si è presentata 1 giugno, verso l'11 il GWT ha eliminato l'errore,cmq io avevo installato un piccolo script nella mia home che rilevava il passaggio del googlebot. Lo script mi ha segnalato che già dal 7 di giugno il googlebot recuperava pagine e solo verso 11 il GWT ha finalmente recuperato la pagina.

dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :

HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google Date: Tue, 04 Jun 2013 12:47:21 GMT Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7 Connection: Keep-Alive Keep-Alive: timeout=5, max=100 Etag: "db-4de510ccf2fe0"

HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
Date: Tue, 04 Jun 2013 12:47:21 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Connection: Keep-Alive
Keep-Alive: timeout=5, max=100
Etag: "db-4de510ccf2fe0"