Ciao aljul,
anche Yahoo e Live Search vivisezionano le pagine web, spezzettandole in parti più o meno grandi che vengono valutate singolarmente.
Ma cosa è impressionante di Google è il fatto che in un caso recente, rimossi alcuni link incriminati di "boilerplate", il sito sia tornato in SERP nelle posizioni che occupava in meno di 48 ore.
In ogni caso sul brevetto c'e' scritto anche come Google identifichi il boilerplate. Sono i punti 0058-0066. Vediamoli tenendo presente che per sinteticità mi riferisco a più pagine di uno stesso sito web:
header, footer, e altri elementi di navigazione
termini comuni ricorrenti frequentemente
termine o frase che ricorrono sempre nella parte finale
lista di termini predefiniti: "copyright" in finale di pagina, "home" "contact us" ricorrenti in tutte le pagine
javascript che puntano a pagine "help.html" o "copyright.html"
L'unica eccezione al punto 0060 è quando un termine o più termini sono usati in maniera frequente perchè il sito tratta di un argomento specifico e quindi non si tratta di una mera ripetizione. E' abbastanza facile intuire in questo caso che Google ha altri algoritmi e parametri per capire che il tuo sito parla di un argomento specifico. Qui però sconfiniamo nel campo della semantica e delle ontologie.
Riguardo alla sitemap non ho mai fatto esperimenti, ma ho una mia personale convinzione (ma ancora tutta da verificare) e cioe' che lì Google possa applicare il DUST:
giorgiotave.it/forum/google-world-gt/81416-dust-paper-sulle-url-e-pagerank.html