• User Attivo

    304 Not modified

    Agoago ha messo un po' di carne al fuoco relativamente al code 304
    http://www.giorgiotave.it/forum/viewtopic.php?t=3210 ma la discussione, pur essendo interessante non è decollata.

    Voi cosa ne pensate? Se i motori tengo in considerazione la presenza di un alto/basso numero di file che restituisco il 304 come si potrebbe sfruttare tale informazione? Intendo dire senza aggiornare manualmente ogni singola pagina 😄


  • Community Manager

    Mai trovato in una situazione simile, agoago la sa lunga!


  • User Attivo

    Continuando il discorso del 304, e' un aspetto interessante.

    Si riceve il code 304 quando un elemento non e' modificato (pagina, immagine...).

    Ammettiamo che un sito abbia 1000 pagine. E che uno spider passi ogni 3 giorni e gliene legga 100.

    Ammettiamo che il wm non abbia mai modificato una sola sua pagina dall'ultima volta.

    Ammettiamo che lo spider conosca gia' quelle 1000 pagine in quanto precedentemente lette e gia' nelle sue serp, nei suoi db.

    Risultato 100% di 304.


    Beh, il motore riceve un 100% di 304 e diciamo che magari la cosa lo lascia indifferente, per dire.

    Il mese dopo lo spider ripassa, la prima volta 100 pagine, tutti 304.
    Poi ancora, altre 100 tutti 304.
    Poi la terza volta invece per le 100 pagine di turno tutti code 200...

    Che succede, cosa pensa?

    Spiderizza altre 100 ed altri 200 code...
    Cosi 'per tutte le rimanenti...

    Ah ragiona, il wm ha cambiato tutte le pagine con qualche search e replace, non manualmente, non ci sono argomenti nuovi messi a mano ma qualche cosa di artificiale, vediamo cosa... e poi decido come comportarmi...


    Ipotizziamo invece ora che la seconda volta per le prime 100 pagine spiderizzate abbia ricevuto come risposta un 92 304 ed un 8 200.

    Il blocco dopo un 20 200 ed un 80 304, ecc ecc

    Alla fine del mese per le 1000 pagine avra' avuto per dire un 166 code 200 ed un 834 code 304... distribuiti in modo omogeneo sulle 1000.

    Beh ragiona, questo caso e' differente, mi puzza meno, magari e' un wm che aggiorna spesso a mano, vediamo cosa succede il mese prossimo e ragioniamo di conseguenza.


    Insomma, senza dilingarsi troppo, il 304 e' piu' importante e trascurato di quanto si creda, con l'analisi del 304 il motore ci "campa", capisce come lavora un wm, quando cerca di fregarlo, quando si sbatte e quando trascura il suo sito, ma soprattutto ha un valore in piu' per capire con che frequenza spiderizzarlo!

    Se uno spider tutti i mesi si becca su un sito amatoriale di 600 pagine un 95% di code 200 e magari nessuna nuova pagina, puo' veramente pensare che quel wm preferisca, senza speculazione alcuna, spendere tutto il suo tempo a modificare il vecchio piuttosto che aumentare il numero delle pagine con nuovi contenuti?

    Sara' per lui il solito seo che cerca di ottimizzare perche' e' piu' facile ottimizzare o fare tentativi in merito piuttosto che creare nuovi contenuti.


    Concludendo, la % tra i 304 code ed il 200 sulle pagine "vecchie" ed il rapporto tra il numero dei code 200 ricevuto dalle vecchie ed il numero dei code 200 ricevuto dalle pagine nuove permette ad un motore di avere una prima chiara visione di cosa "e'" e di come si "comporta" un wm.

    Una fotografia importante per premiare, ignorare, o penalizzare il valore del sito e/o comunque la frequenza, la quantita', la profondita delle pagine spiderizzate.


  • User Attivo

    e nel caso di pagine dinamiche tipo php ?


  • Super User

    Che io sappia, la maggior parte dei motori di ricerca compara in ogni caso i contenuti delle pagine con quelli che ha in cache in tutti quei casi in cui il server restituisce un codice 200, sopratutto per rendersi conto di quanto la pagina è realmente cambiata.

    Questo risolve anche il problema delle pagine dinamiche, che mostrano spesso un codice 200 anche quando i contenuti non sono cambiati.


  • User Attivo

    @LowLevel said:

    Che io sappia, la maggior parte dei motori di ricerca compara in ogni caso i contenuti delle pagine con quelli che ha in cache in tutti quei casi in cui il server restituisce un codice 200, sopratutto per rendersi conto di quanto la pagina è realmente cambiata.

    Questo risolve anche il problema delle pagine dinamiche, che mostrano spesso un codice 200 anche quando i contenuti non sono cambiati.

    Cattivoni questi motori, non si fidano... pero' forse come diceva il grande gobbo a pensar male...

    "10.3.5 304 Not Modified

    If the client has performed a conditional GET request and access is allowed, but the document has not been modified, the server SHOULD respond with this status code. The 304 response MUST NOT contain a message-body, and thus is always terminated by the first empty line after the header fields."

    Vedo uno SHOULD in maiscolo, insomma dovrebbero... insomma faccio cosa mi pare...

    66.249.71.32 - - [26/Oct/2005:18:09:47 -0700] "GET /cenepazzo.htm HTTP/1.0" 304 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

    Sui 200 non si fidano, sui 304 si? Sembrerebbe.

    Chi gli da il 304 code in risposta?
    Cosa significa lato server? Un semplice htaccess?
    O magari modificare il free code del server apache?

    Nel web la realta' e' soggettiva, ed il Gap aumenta.


    Se vado a Roma ed ammiro il colosseo, lo stesso colosseo lo vedo io come lo vedi tu.

    Potremo avere sensazioni diverse, ma il colosseo uno e' ed uno rimane, per tutti noi.

    Immagina un giorno che il mio colosseo mi appaia diverso dal tuo.
    Vorresti vederlo anche con i miei occhi ma non riesci, o ti costerebbe risorse enormi.

    Allora capirai di essere in grado di catalogare ed ordinare solo il tuo mondo e non il mio o quello di mille altri.

    La distanze aumenteranno, e per non permettere che cio' avvenga dovranno sostituire i vari should con i must be.


    Test per capire se 2 pagine sono simili? Ma quelle possono essere le tue 2 pagine, non le mie. Ne vedo una rossa ed una nera, tu 2 blu.

    Io ho un 200 in risposta, tu forse un 404.

    Settaggi del dns, dei router, dei firewall, dei server, del lato server, del codice delle pagine, e via dicendo ci allontaneranno sempre piu'.


    Discussioni su discussioni su come "ragionano" i motori. Raramente o mai sul "cosa" ragionano.