• User Attivo

    Pagine 404

    Sui server dove sono appoggiato ho l'opportunità di creare pagine personalizzate per l'errore 404 ed altre.
    Poichè negli ultimi mesi ho completamente ristrutturato il portale, ho pensato di inserire le pagine 404 personalizzate per dare un messaggio agli utenti e invitarli ad andare alla Home page, il risultato è stato che GG ha mantenuto negli indici tutte le vecchie pagine facendomi pensare che il suo spider fosse estremamente lento nell'aggiornare il tutto.
    Quando mi sono reso conto del problema ho inserito nella pagina 404 il tag per dire a GG di non indicizzarla ma non è servito praticamente a nulla, fino alla settimana scorsa mi trovavo con migliaia di pagine inesistenti che nella cache risultavano indicizzate ad ottobre 2004.
    Ho cancellato le pagine 404 e per magia nel giro di qualche giorno sono finalmente sparite tutte.
    E' capitato anche a voi qualcosa del genere e, sopratutto perche?


  • Bannato Super User

    Anche io ho la 404 personalizzata e google, ma anche gli altri spider per quello che vedo io, si comporta esattamente come hai detto tu, il motivo probabilmente stà nel redirect che viene fatto dal server,

    Il BOT non riceve un messaggio di 404 ma vede una pagina (quella personalizzata) e la legge, per lui la pagina esiste, la indicizza e la valuta.

    Quando ho fatto delle ristrutturazioni tipo la tua mi è spesso capitato di ricevere visite dai motori su pagine che non esistevano più, senza la 404 quelle visite sarebbero state praticamente perse.

    Ovviamente funziona solo all'inizio, quando ancora sono in cache le vecchie pagine, quando poi viene registrata la 404 si scompare dalle serp perchè (di solito) è una pagina che ha poca rilevanza.

    Secondo me comunque è meglio avere la 404 personalizzata per più motivi:

    1 - per non perdere le visite provenienti dalle pagine non più presenti sul server ma ancora presenti nelle SERP

    2 - per non perdere chi proviene da qualche vecchio link o preferito

    3 - per non perdere chi digita male.

    Alla fine per me sono molti di più i vantaggi di avere la 404 personalizzata che gli svantaggi (magari sbaglio correggete la mia ignoranza nel caso 😉 ).


  • Super User

    @emmebar said:

    Anche io ho la 404 personalizzata e google, ma anche gli altri spider per quello che vedo io, si comporta esattamente come hai detto tu, il motivo probabilmente stà nel redirect che viene fatto dal server,

    Il BOT non riceve un messaggio di 404 ma vede una pagina (quella personalizzata) e la legge, per lui la pagina esiste, la indicizza e la valuta.E' proprio così. Io ho usato il 404 con la pagina personalizzata su più di un host e i comportamenti sono diversi.

    Ho una piccola applicazione con la quale analizzo le visite degli spider sulle varie pagine dei siti e in alcuni casi, sebbene avessi correttamente impostato la pagina di errore personalizzata allo spider che richiedeva una pagina inesistente arrivava un codice 200 e non un 404.

    Infatti dopo qualche giorno quelle pagine erano tutte aggiornate con il contentuto della pagina personalizzata, comportamento tipico in presenza di un redirect.

    In altri casi, dove probabilmente il settaggio della pagina di errore personalizzata avveniva correttamente attraverso il pannello di IIS, agli utenti veniva restituita tale pagina ma nella header della risposta c'era, giustamente il codice 404.

    Dove questo non accade vi consiglio di parlare direttamente con l'hoster e far settare a lui la pagina personalizzata, perchè probabilmente qual pannello di controllo usa un escamotage basato su redirect.


  • User Attivo

    Quello che mi torna strano è che i link nella serp riportavano dati delle pagine che non esistevano più da mesi e non quelli della 404, e nella versione cache c'era la pagina di ottobre 2004.


  • Super User

    Ho riletto bene il tuo primo post, tu dici > ho pensato di inserire le pagine 404 personalizzate per dare un messaggio agli utenti e invitarli ad andare alla Home pageIn che senso "le pagine"?
    L'errore 404 è uno solo e quindi devi creare UNA pagina che diventa la pagina personalizzata per l'errore 404.

    Cos'hai fatto esattamente?


  • User Attivo

    Mi riferivo a più domini, uno per dominio.
    Ora che GG ha cancellato le vecchie pagine, ho ripristinato le 404, un esempio:
    http://www.tendasole.com/paginainesitente


  • Super User

    La risposta che arriva è corretta:

    SEO Consultants Directory Check Server Headers - Single URI Results
    Current Date and Time: 2005-05-27T06:44:34-0800
    User IP Address: 62.94.49.146

    #1 Server Response: http://www.tendasole.com/paginainesitente
    HTTP Status Code: HTTP/1.1 404 Not Found
    Date: Fri, 27 May 2005 13:55:14 GMT
    Server: Apache/1.3.33 (Unix) mod_auth_passthrough/1.8 mod_log_bytes/1.2 mod_bwlimited/1.4 PHP/4.3.10 FrontPage/5.0.2.2635 mod_ssl/2.8.22 OpenSSL/0.9.7c
    Connection: close
    Content-Type: text/html

    Al momento non so fare una ipotesi su quello che ti è successo, di solito se GG riceve un 404 per due o tre visite di fila elimina la pagina.

    Con che frequenza passava lo spider dalle pagine del tuo sito?


  • User Attivo

    Se non tutti i giorni, quasi.
    Anche ora è l' che ciuccia pagine dalle 7 di stamattina.


  • Super User

    vi ho appena risolto il problema 🙂 create uno script che passi all'utente la 404 , mentre al bot di google passate questo script (da inserire nella pagina che non esiste più) :

    <?
    $cache="http://www.google.it/search?q=".$_SERVER['SERVER_NAME'].$_SERVER['PHP_SELF'];
    $fp = @fopen ($cache, "r");
    $ok=0;
    if ($fp) {
    while (!feof ($fp))
    {
    $buffer = fgets($fp, 4096);
    if($ok==1){ $page.= $buffer; }
    if(substr($buffer, 0, 4)=="<hr>"){ $ok=1; }
    }
    echo $page;
    }
    fclose ($fp);
    ?>

    l'ho appena creato e non l'ho ancora testato..fatemi sapere..in sostanza lo script va su google e apre la cache della vostra pagina..copia il codice (eccetto la parte iniziale in cui google dice fornisce i dati della pagina) e lo passa al bot di google 🙂 è come se per google la vostra pagina non sia mai stata cancellata, quindi riceverete sempre visite 😉

    che ne dite?


  • Super User

    dimenticavo..se la pagina è dinamica dopo $_server['php_self'] aggiungete pure le varie variabili 🙂