Dubbi filtro antiduplicazione su RSS e altro

webcarlo

Dubbi filtro antiduplicazione su RSS e altro

Ciao,
per alcuni di voi queste cose sono forse note, io il dubbio me lo porto dietro da un bel pezzo, per la precisione da Bourbon.

Stamane leggo questo articolo http://www.seobook.com/archives/001230.shtml, di un po' di tempo fa, e poi nei commenti trovo un pensiero che mi è sorto pure a me da diverso tempo:
"The question is HOW is google determining what is duplicate. Is it actually making a hashmap and comparing the OVERALL page to all the other pages on the site.

Or is it doing a hashmap and breaking the page down into sectors, then comparing the hash of individual sectors of the page with other pages. Sort of like the way good anti-spam filters get around the randomization spammers use within spam emails."

Come fa Google a considerare il testo duplicato?
Per la mia esperienza potrei dire che spezza la pagina in più settori, anche se sto vedendo come alcuni siti riusano contenuto duplicato fregando boost al sito d'origine. Si accreditano, almeno cosi' a me sembra, la paternità del contenuto, risultano primi nella SERP, sorpassando il sito fonte.

Tra questi siti ce ne sono alcuni che fanno visite da capogiro, stando ad alexa, e la variazione che introducono rispetto al contenuto originale è minima:
inseriscono delle parole in grassetto o con altri attributi, inseriscono nuove interlinee, magari ne cancellano una, solitamente iniziano il paragrafo iniziale scritto di loro pugno (è l'unica coa che scrivono).

Facile fare i contenuti. E io da pirla che mi dicevo: azzo, che bravi, ma quanti saranno in redazione?

giorgiotave

@WebCarlo said:

Tra questi siti ce ne sono alcuni che fanno visite da capogiro, stando ad alexa, e la variazione che introducono rispetto al contenuto originale è minima:
inseriscono delle parole in grassetto o con altri attributi, inseriscono nuove interlinee, magari ne cancellano una, solitamente iniziano il paragrafo iniziale scritto di loro pugno (è l'unica coa che scrivono).

Ciao WebCarlo, tra le cose che hai citato sopra, l'unica interessante è che scrivono l'inizio del paragrafo di loro pugno.

Le altre sono facilmente individuabili

Visite da capogiro quante? Che traffic segna Alexa?

webcarlo

Uno è stato segato in questi giorni, faceva punte di 10.000 (indice Alexa), l'altro è sui 5000. Quelli che cambiano il primo paragrafo a mano, per la verità l'ho visto solo su alcune notizie.

Quindi mi verrebe da credere che a questo punto per il motore di ricerca basta variare poco, togliere l'interlinea, attaccare i paragrafi, aggiungere gli attributi di testo.

Però pensandoci bene, basta un programmino di poche linee, per fare un confronto tra un testo e l'altro (togliendo tag, interlinee ed altro).

giorgiotave

@WebCarlo said:

Però pensandoci bene, basta un programmino di poche linee, per fare un confronto tra un testo e l'altro (togliendo tag, interlinee ed altro).

Infatti, quello che dicevo io è che l'aggiunta di testo è fondamentale.

5000 è moltissimo

beke

Basta un semplice confronto fra i vettori di termini di due documenti per rendersi conto con un ottimo margine di certezza che il contenuto è lo stesso.
O per calcolarne un grado di "similitudine".

webcarlo

Si Beke hai ragione.

Ho letto di gente che inverte i paragrafi, certo che a questi del lettore non gliene frega niente. Credo che sgammi anche questo comportamento.