• User

    Rieccomi credo di aver trovato un indizio analizzando gli headers con il firebug

    dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :

    HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
    Date: Tue, 04 Jun 2013 12:47:21 GMT
    Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
    Connection: Keep-Alive
    Keep-Alive: timeout=5, max=100
    Etag: "db-4de510ccf2fe0"

    Mentre questo è un header corretto di un'altro robots.txt di un'altro sito da me gestito.


    HTTP/1.1 200 OK <------------------------------------------qua invece la risposta è corretta
    Date: Tue, 04 Jun 2013 12:47:44 GMT
    Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
    Last-Modified: Tue, 23 Apr 2013 08:32:22 GMT
    Etag: "6c-4db03062f7180"
    Accept-Ranges: bytes
    Content-Length: 108
    Keep-Alive: timeout=5, max=100
    Connection: Keep-Alive
    Content-Type: text/plain

    qualcuno sa come risolvere l'errore 304 ??? . Ho inviato un ticket ad aruba e aspetto risposta...


  • Admin

    Il 304 non è un errore.

    Semplicemente il tuo file robots.txt ha settata una scadenza e dunque finché non scade la risorsa non viene richiesta.


  • User

    Probabilmente la situazione è la seguente:
    Google per evitare utilizzi impropri , sfrutta il meccanismo di caching; usando lo stesso ETag nella richiesta, il webserver risponde a Google dicendo "la pagina rispetto all'ultima volta non è cambiata" ( e questo giustificherebbe il 304 ).
    il 304 lo risolvi soltanto modificando il contenuto del file e sottomettendo nuovamente la richiesta.
    A scanso di equivoci fai una cosa:
    Metti nel file robots.txt solo questa riga ->

    User-agent: *

    e osservi se cambia qualcosa; qualora cambiasse significa che il problema è nella formattazione del file robots.txt; in alternativa insisti con il ticket verso aruba


  • User

    Iceman...niente fatte le tue modifiche ho modificato il file (cancellato e ricreato il nuovo con la sola direttiva del post di sopra ) ma il server risponde sempre nella stessa maniera 304, secondo me finchè il server non risponde con codice 200 google non legge il file. Ora è da capire solo se ciò lo posso fare forzando la cosa nel .htaccess oppure è una cosa da settare nel modulo di apache del dell'hosting.


  • Admin

    Cancella completamente il file robots.txt e con il 404 Google accederà alle risorse.


  • User

    gia provato, anche se cancello il file il webmaster tool dice che robots.txt non è raggiungibile


  • Admin

    Ma almeno ti torna un 404?


  • User

    si , usando firebug nell'header torna il 404


  • User

    a sto punto penso che è colpa del provider


  • User

    Girando tra le varie discussioni dei google groups sul tema webmaster circola la voce che sia un "glitch" di google e che sia un problema abbastanza comune...
    stamattina l'errore è cambiato ....da "robots.txt non raggiungibile" a "pagina non raggiungibile". Questa cosa avvalora l'ipotesi che il problema non è legato ne al provider (confermatomi oggi che non esiste alcun blocco ip) ne alla programmazione del sito.


  • User

    Posto questo messaggio per chiudere il discorso e sperando sia di aiuto ad altri "incappati" nello stesso problema. Nel mio sito il tutto si è risolto verso 11 giugno (l'anomalia è iniziata 1 giugno).

    Il problema a cui si fà riferimento è il tema principale della discussione cioe quando il webmaster tool indica che "Google non riesce ad accedere al sito" oppure segnala "robots.txt non raggiungibile" .
    Come ho precedentemente scritto "potrebbe trattarsi di un glitch" quindi per capire se si tratta di un glitch o meno si dovrebbe in sequenza fare queste verifiche:

    Mandare un'email al gestore del Hosting per verificare se da parte loro vi è un blocco verso gli IP google (Veramente remoto perchè nessun hoster sarebbe cosi stupido e suicida)
    Fare un test degli header http con qualche tool online e vedere se il server restituisce l'header corretto.
    Verificare con un browser settato con User Agent Googlebot, se si riesce a recuperare la pagina. (firefox ha un plugin che permette di fare questo)
    Controllare il file robots.txt e fare la verifica di esso tramite sempre qualche tool online (ceck della sintassi).

    Se dopo aver fatto tutto ciò non emerge alcuna anomalia è altamente problabile sia il glitch del GWT.

    Non vi resta che attendere o scrivere sul forum di supporto google.

    Io ho notato che effettivamente quando il googlebot inizia nuovamente ad accedere alle pagine, il GWT segnala la fine dell'errore dopo 3-4 giorni.
    In pratica tra l'attività di scansione e i dati di monitoraggio che il GWT mostra sono ritardati mediamente 2 3 giorni.

    l'anomalia al mio sito si è presentata 1 giugno, verso l'11 il GWT ha eliminato l'errore,cmq io avevo installato un piccolo script nella mia home che rilevava il passaggio del googlebot. Lo script mi ha segnalato che già dal 7 di giugno il googlebot recuperava pagine e solo verso 11 il GWT ha finalmente recuperato la pagina.