• User Attivo

    Sitemap xml vs Googlebot

    Qualcuno sicuramente ha già provato, dopo X tempo su google viene indicizzata la sitemap.xml con rispettiva copia di cache, da quest'ultima si può vedere in modo (indicativo) quando viene scaricata e visitata da googlebot.

    Allora prendiamo due pagine che non hanno backlink esterni , che si trovano sullo stesso livello nella struttura del sito , che hanno lo stesso numero di vistatori e che hanno gli stessi parametri nella sitemap.xml.

    Proviamo a modificare i parametri della sitemap di una delle due pagine, inseriamo uno script in tutte e due le pagine per rilevare le visite di googlebot.

    I parametri della sitemap xml incidono sulla velocità di aggiornamento della copia di cache o per lo meno fa aumentare o diminuire le visite di googlebot su una o l'altra pagina?

    sicuramente qualcuno ha già la risposta.


  • Moderatore

    Ciao vocalis.

    Rispondo alla tua utlima domanda: secondo me una variazione di parametri nella Sitemap inviata a Google ha (a parità di altri fattori) una qualche influenza sulle visite del crawler.

    Delle influenze, testate, della Sitemap sul posizionamento ha parlato Maurizio Petrone al Quinto Convegno GT. Ma forse a te interessava di più la correlazione tra alcuni parametri e il passaggio del robot di Google.

    Per scendere più nel dettaglio, capita a pennello un brevetto assegnato oggi a Google, firmato da nomi famosi nella seo come Matt Cutts e Vanessa Fox.
    Il documeto si chiama "System and method for managing multiple domain names for a website in a website indexing system" e spiega il funzionamento degli Strumenti per Webmaster di Google (o meglio di quello che erano nel dicembre 2006). Tra le altre cose vi è approfonditamente spiegato il processo di indicizzazione e l'influenza nello stesso dei parametri della Sitemap.

    Ecco gli estratti che interessano a questa discussione, sui parametri priority e changefreq.

    The change frequency is a descriptor of how often a document's content is expected to change. The descriptor is one of a predefined set of valid descriptors. In some embodiments, the set of change frequency descriptors includes ?always,? ?hourly,? ?daily,? ?weekly,? ?monthly,? ?yearly,? and ?never.? The change frequency provides a hint to the crawler as to how often the document changes and the crawler can use the hint to schedule crawls of the document accordingly. A crawler, however, may crawl the document in a way that is inconsistent with the specified change frequency. For example, a crawler may crawl a document marked as ?hourly? less frequently than a document marked as ?yearly.? The actual crawl frequency of a document may be based on the document's importance (as represented by a score, such as PageRank), actual observed changes in the document (or lack thereof) as observed by the crawler, and other factors, as well as the change frequency specified in a sitemap.

    The priority is a value that specifies the relative priority of the document identified by the URL. The priority may be the priority relative to other documents listed in the same sitemap, relative to other documents stored in the same web server as the document, or relative to all documents in the website. In some embodiments, the range of priority values is 0.0 to 1.0, inclusive, with 0.5 as the default value, 0.0 as the lowest relative priority, and 1.0 as the highest relative priority. In some other embodiments, other priority scales, such as 0 to 10, may be used. The priority may be used by a crawler to determine which documents in the website should be crawled first. The crawler may ignore or modify the priority values in a sitemap when those priority values fail to meet predefined criteria (e.g., a requirement that the priority values in a sitemap or set of sitemaps for a website have a predefined average value, such as 0.5). In some embodiments, the priority may also be used when indexing documents.Riassuntino delle parti interessanti alla discussione.
    Il crawler può utilizzare il parametro di changefreq per programmare i futuri passaggi su una URL, tuttavia può anche comportarsi in maniera inconsistente con quanto consigliato dalla Sitemap. Infatti la reale frequenza di crawl può essere influenzata dall'importanza del documento (ad esempio misurata con il PageRank), dalle modifiche finora osservate sulla pagina e da altri fattori come ad esempio la changefreq specificata nella Sitemap.

    La priority può essere utilizzata per determinare quale documento di un sito dovrebbe essere analizzato per primo, tuttavia il crawler può ignorare o modificare questo valore quando questo valore non rispetta predeterminati criteri (ad esempio se la media dei valori di priority per un sito non è uguale a 0.5). In alcune realizzazioni del brevetto, la priority può anche essere presa in considerazione per decidere quale documento indicizzare prima.

    Molto dopo, in maniera ancora più interessante, si torna sulla priority:

    A query-independent score (also called a document score) is computed for each URL by URL page rankers. The page rankers compute a page importance score (sometimes called a document importance score) for a given URL. In some embodiments, the page importance score is computed by considering not only the number of URLs that reference a given URL but also the page importance score of such referencing URLs. Page importance score data is provided to URL managers, which pass a page importance score for each URL to URL server, robots, and content processing servers. One example of a page importance score is PageRank, which is used the page importance metric used in the Google search engine. An explanation of the computation of PageRank is found in U.S. Pat. No. 6,285,999, which is incorporated by reference herein in its entirety as background information. In some embodiments, information from the sitemaps may be incorporated into the computation of the page importance score. An example of sitemap information that may be incorporated into the page importance score is the priority.Mini-riassunto: la priority può essere incorporato nel punteggio di importanza della pagina, utile a determinare il valore seo "query-independent" di una URL, assieme al PageRank.

    Per chiarire quest'ultima frase mi sento però di riferirmi anche alle informazioni sulla Sitemap rilasciate da Google: la priority è un parametro che vale all'interno del sito e limitatamente allo stesso. Può quindi essere influente per decidere quale pagina mostrare in serp a parità di altri valori, ma non per ottenere un vantaggio competitivo sugli altri domini.

    Spero che la tua curiosità abbia trovato risposta. Resto a disposizione per ogni chiarimento o approfondimento.
    Buon lavoro!