Sfatiamo il mito dei 97K di Google

swalke

Sfatiamo il mito dei 97K di Google

Ciao a tutti.
Vorrei raccogliere un po' di opinioni per sfatare quello che secondo me è il falso mito dei 97k di Google.

In alcuni Forum/Blog si parla del fatto che 97K è il limite oltre il quale Google non indicizzerebbe i contenuti.
Io stesso ho citato questo limite nel mio blog e sempre questo limite è stato citato anche in questo forum (da me e da altri utenti).

In effetti la teoria dei 97k deriva sostanzialmente da un articolo che circola su web e che è stato scopiazzato su diversi blog:
http://www.italianwebdesign.it/googlebot-legge-97kb-test-e-suggerimenti/

Questo articolo parla di un esperimento che io stesso ho provato e posso confermare, secondo cui se si avvia la funzionalità "Fetch as Googlebot" di Google WebmasterTools su una pagina web il cui contenuto supera i 97k, il contenuto viene troncato.

Ciò che secondo me c'è di sbagliato in questo articolo è la conclusione che trae partendo da un presupposto sbagliato.
Il fatto che WMTools mostri soltanto i primi 97k di una pagina non dimostra che lo spider di Google legge solo i primi 97k.
Dimostra solamente che chi ha implementato quella funzionalità ha deciso di mostrare solo 97k di quel codice che gli occhi dello spider vedono.

Questa è la mia idea e mi piacerebbe sentire altri pareri.

In difesa di questa teoria porto tre argomentazioni:

Esistono pagine (wikipedia o forum) i cui contenuti oltre i 97K vengono indicizzati.
In questo articolo dell'anno scorso: http://www.mattcutts.com/blog/how-many-links-per-page/
si parla del fatto che google indicizza oltre i 100k
In questo articolo del 2006:
http://articles.sitepoint.com/article/indexing-limits-where-bots-stop#
Serge Bondar ha condotto un interessantissmo esperimento che sarebbe bello ripetere. Già da quei tempi google indicizzava più di 100K!

Aspetto speranzoso i vostri pareri!

marco.quadrella

Il limite posto da Google alla nuova funzionalità ha, in effetti, preoccupato non pochi webmaster.

Fortunatamente per loro, hai ragione: si tratta di un falso mito. La conferma ufficiale è arrivata dal forum di Google riguardante gli Strumenti per Webmaster. Questo il thread a cui mi riferisco.

Traduco il senso delle domande di un utente e delle risposte da parte di un dipendente di Google.

Webmaster: "Fetch as Googlebot" mostra soltanto i primi 100KB. Significa che Googlebot scansiona soltanto i primi 100KB di ciascuna pagina web oppure è un limite del tool?

Dipendente di Google: Per quanto ne so, questo è un limite della funzione "Fetch as Googlebot", penso sia l'unica differenza tra il vero Googlebot ed il tool. Il problema principale è che file di grandezza arbitraria avrebbero rallentato l'interfaccia utente degli Strumenti per Webmaster di Google, così abbiamo dovuto porre un qualche limite.
Questo limite è un problema per le tue pagine?

Webmaster: Non lo considero un problema per gli Strumenti per Webmaster. Ero soltanto meravigliato ed un pochino impaurito che Google potesse scansionare soltanto i primi 100KB di una pagina web.

Dipendente di Google: Certamente, per la normale ricerca sul web scansioniamo ed indicizziamo molto più dei primi 100KB. (Soltanto in questa particolare funzione di Google abbiamo dovuto mettere un limite). Non so quanto sia il limite attuale, ma devo ancora imbattermi in una normale pagina web che possa avere questo tipo di problemi. Se siete preoccupati per le vostre pagine, potete selezionare una parte di contenuto univoco dal fondo delle stesse e vedere se vengono restituite in serp.

Archiviata la questione quindi?
Potrebbe essere comunque interessante sapere quanti byte per pagina vengono realmente indicizzati. Qualcuno vuole provare a ripetere l'esperimento citato al punto 3 del post precedente come suggerito da Swalke?

ropa

A prescindere dal limite fantomatico dei 97k, penso che il tenere una pagina di dimensioni contenute sia sempre una bella abitudine. pagine troppo pesanti influiscono negativamente anche sugli utenti e non solo sui motori.
Tornando ai 97k effettivamente sono parecchie le pagine che superano il limite, come hai detto tu wikipedia ad esempio. Ma siamo sicuri che goog, trovando in un sito qualsiasi molte pagine troppo pesanti non lo manderebbe a quel paese?

swalke

Grazie mille per la risposta LaBussola, e anche per il link con la smentita ufficiale!

webmaster70

Non ci vuole tanto per verificare che si tratta di una bufala, senza scomodare dipendenti Google.

Trovare una pagina indicizzata con testi lunghi;

Mi è venuto in mente il blog di beppe grillo che ha tantissimi commenti senza paginazione
www . beppegrillo.it/2009/03/comunicato_poli_14/index.html
peso 297 kb.

Trovare keyphrase riportata solo verso la fine della pagina;

"Grillo-Di Pietro-movimenti spontanei"

Cercare su google quella keyphrase.

Tempo impiegato: 5 minuti.

lauryn

ragazzi grazie della segnalazione, sentite queste opinioni corro a rettificare l'articolo