- Home
- Categorie
- Digital Marketing
- Google Analytics e Web Analytics
- robots.txt non raggiungibile
-
Grazie dell'interessamento da parte vs....cmq si certo www(punto ) affarefacile punto it. , girovagando su google ho notato che si tratta di un problema piu o meno comune, ma non riesco a capire se è un blocco di ip da parte del provider (aruba al quale ho già inviato ticket di assistenza) oppure è un problema del sito. Se provo a fare il "visualizza come google" (il fetch as googlebot) mi restituisce sempre l'errore che il robots.txt è irrag
-
Ok allora facci sapere cosa ti risponde Aruba.
-
ok..Google ti segnala un KO, ma con quale errorCode ? Di solito, in caso di file non trovato dovresti osservare un 404 not found ( e questo indicherebbe un intervento da parte del provider nel proibire in qualche maniera l'accesso del google bot ).
Facendo un check su questo sito ww w.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php sembrerebbe però che **il tuo file **sia in qualche maniera errato. Ho provato ad analizzare a basso livello lo stesso e sembrerebbe **mancare **di una riga vuota al termine del file. Prova ad **inserirla **a fine file e verifica se qualcosa cambia.
-
accatittippi // imageshack.us/f/811/robotsn.jpg/
razie ancora a tutti per l'interessamento....Allora ho fatto come mi hai consigliato tu Iceman, ho corretto il file robots.txt con il tool online, ho provato a recuperare la pagina dal webmaster tool con il nuovo file ma il niente, stesso risultato (come evidenziato in giallo nella foto allegata) .
Dopodichè ho cancellato completamente il file robots.txt, ritentato il recupero ma ancora lo stesso errore (evidenziato in rosso nella foto allegata).
Ho inviato lo stesso screeshot ad aruba ma ancora non mi hanno risposto.Potrebbe essere un errore, un bug di google???
Su Strumenti per il webmaster mi indica :
/-------------------------------------------
Errori del sito Sono visualizzati i dati degli ultimi 90 giorniGoogle non è riuscita a sottoporre a scansione il tuo sito perché non siamo stati in grado di accedere al file robots.txt.robots.txt.
/-------------------------------------------
questo è il messaggio di errore di google (copia incolla)...in pratica scrive due volte robots.txt.robots.txt
-
Se provi a fare il fetch di altre pagine che non siano il robots.txt cosa ti dice?
-
stessa cosa...file robots.txt non raggiungibile, l'hosting aruba sta dando risposte evasive .tipo "controlla il file, non abbiamo trovato il file" può essere che essendo un hosting base loro bloccano il googlebot??? considerando che negli ultimi gioni c'era una visita del bot quasi ogni 10 min.
-
Rieccomi credo di aver trovato un indizio analizzando gli headers con il firebug
dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :
HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
Date: Tue, 04 Jun 2013 12:47:21 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Connection: Keep-Alive
Keep-Alive: timeout=5, max=100
Etag: "db-4de510ccf2fe0"Mentre questo è un header corretto di un'altro robots.txt di un'altro sito da me gestito.
HTTP/1.1 200 OK <------------------------------------------qua invece la risposta è corretta
Date: Tue, 04 Jun 2013 12:47:44 GMT
Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
Last-Modified: Tue, 23 Apr 2013 08:32:22 GMT
Etag: "6c-4db03062f7180"
Accept-Ranges: bytes
Content-Length: 108
Keep-Alive: timeout=5, max=100
Connection: Keep-Alive
Content-Type: text/plainqualcuno sa come risolvere l'errore 304 ??? . Ho inviato un ticket ad aruba e aspetto risposta...
-
Il 304 non è un errore.
Semplicemente il tuo file robots.txt ha settata una scadenza e dunque finché non scade la risorsa non viene richiesta.
-
Probabilmente la situazione è la seguente:
Google per evitare utilizzi impropri , sfrutta il meccanismo di caching; usando lo stesso ETag nella richiesta, il webserver risponde a Google dicendo "la pagina rispetto all'ultima volta non è cambiata" ( e questo giustificherebbe il 304 ).
il 304 lo risolvi soltanto modificando il contenuto del file e sottomettendo nuovamente la richiesta.
A scanso di equivoci fai una cosa:
Metti nel file robots.txt solo questa riga ->User-agent: *
e osservi se cambia qualcosa; qualora cambiasse significa che il problema è nella formattazione del file robots.txt; in alternativa insisti con il ticket verso aruba
-
Iceman...niente fatte le tue modifiche ho modificato il file (cancellato e ricreato il nuovo con la sola direttiva del post di sopra ) ma il server risponde sempre nella stessa maniera 304, secondo me finchè il server non risponde con codice 200 google non legge il file. Ora è da capire solo se ciò lo posso fare forzando la cosa nel .htaccess oppure è una cosa da settare nel modulo di apache del dell'hosting.
-
Cancella completamente il file robots.txt e con il 404 Google accederà alle risorse.
-
gia provato, anche se cancello il file il webmaster tool dice che robots.txt non è raggiungibile
-
Ma almeno ti torna un 404?
-
si , usando firebug nell'header torna il 404
-
a sto punto penso che è colpa del provider
-
Girando tra le varie discussioni dei google groups sul tema webmaster circola la voce che sia un "glitch" di google e che sia un problema abbastanza comune...
stamattina l'errore è cambiato ....da "robots.txt non raggiungibile" a "pagina non raggiungibile". Questa cosa avvalora l'ipotesi che il problema non è legato ne al provider (confermatomi oggi che non esiste alcun blocco ip) ne alla programmazione del sito.
-
Posto questo messaggio per chiudere il discorso e sperando sia di aiuto ad altri "incappati" nello stesso problema. Nel mio sito il tutto si è risolto verso 11 giugno (l'anomalia è iniziata 1 giugno).
Il problema a cui si fà riferimento è il tema principale della discussione cioe quando il webmaster tool indica che "Google non riesce ad accedere al sito" oppure segnala "robots.txt non raggiungibile" .
Come ho precedentemente scritto "potrebbe trattarsi di un glitch" quindi per capire se si tratta di un glitch o meno si dovrebbe in sequenza fare queste verifiche:Mandare un'email al gestore del Hosting per verificare se da parte loro vi è un blocco verso gli IP google (Veramente remoto perchè nessun hoster sarebbe cosi stupido e suicida)
Fare un test degli header http con qualche tool online e vedere se il server restituisce l'header corretto.
Verificare con un browser settato con User Agent Googlebot, se si riesce a recuperare la pagina. (firefox ha un plugin che permette di fare questo)
Controllare il file robots.txt e fare la verifica di esso tramite sempre qualche tool online (ceck della sintassi).Se dopo aver fatto tutto ciò non emerge alcuna anomalia è altamente problabile sia il glitch del GWT.
Non vi resta che attendere o scrivere sul forum di supporto google.
Io ho notato che effettivamente quando il googlebot inizia nuovamente ad accedere alle pagine, il GWT segnala la fine dell'errore dopo 3-4 giorni.
In pratica tra l'attività di scansione e i dati di monitoraggio che il GWT mostra sono ritardati mediamente 2 3 giorni.l'anomalia al mio sito si è presentata 1 giugno, verso l'11 il GWT ha eliminato l'errore,cmq io avevo installato un piccolo script nella mia home che rilevava il passaggio del googlebot. Lo script mi ha segnalato che già dal 7 di giugno il googlebot recuperava pagine e solo verso 11 il GWT ha finalmente recuperato la pagina.