@LaBussola said:
Il concetto di "similarità"/"vicinanza semantica" è assolutamente condivisibile e corrisponde anche ad alcune mie idee: se infatti per dimostrare la presenza di contenuto duplicato facciamo spesso ricorso al virgolettato, non è detto che cambiare qualche parola risolva la situazione.
Penso in particolare a quei siti che si limitano a riportare i contenuti tratti da fonti ad altissima tematizzazione (domini di compagnie telefoniche, case di distribuzione cinematografica, quotidiani nazionali, ...) senza preoccuparsi di aggiungere valore.
In tutti questi casi chi ripubblica si adopera in giri di parole più o meno impegnativi: fornisce nuovi documenti ma non nuovi contenuti.
Ogni qual volta viene eseguita una richiesta, Google seleziona le migliori pagine e poi, tra queste, tenta di stabilire dei criteri di "somiglianza" (ad esempio valutando le parole utilizzate accanto a quelle ricercate, la quantità del contenuto aggiunto, ...).
Per fare un esempio, se sul sito di un grosso brand trovo 5 righe per presentare una nuova notizia, del tipo:
"Da oggi con GrossoBrand , attivando l'offerta VicinoACasa puoi parlare con tutti i numeri di telefono della tua città a 10 centesimi il minuto ..."
E la riscrivo, mutatis mutandis, senza aggiungere nulla di mio in:
"Nuova offerta VicinoACasa di GrossoBrand per parlare al telefono all'interno della tua città a soli 10 centesimi al minuto ..."
Quando l'utente cercerà "offerta vicinoacasa di grossobrand" rischierò parecchio di venire filtrato. Troppi di questi inconvenienti e Google comincerà a ritenermi poco affidabile.
Nella mia idea questa sopraggiunta inaffidabilità influirà sul trust generale del dominio aumentando la possibilità di ripercussioni a livello di posizionamento, o peggio ancora di penalizzazioni.
Lasciando il dibattito e tornando all'origine, vorrei far notare che la situazione di Van Basten non è rassicurante: se è primo per il titolo del suo post (che è ancora dei link interni), per il momento i problemi più gravi rimangono: tiny.cc/5XFpA (appare in terza posizione, con la home ed il post originale è negli oltre 150 risultati omessi). Ovviamente, non è detto che vi siano conseguenze, volevo semplicemente evidenziare come il problema della duplicazione sia sempre più complesso.
Scusate se vi ho annoiato con questo "approfondimento" delle idee avute da bluewebmaster (circa le semantica) e mister.jinx (che ha parlato di similarità). Spero di essere stato chiaro e che altri contributi possano aggiungersi alla discussione.
Vero.
C'era una discussione qui sul forum dove si diceva che questo è dovuto al fatto che google riesce a carpire i concetti chiave e se li vede replicati con un determinato criterio (stesso paragrafo ecc) allora filtra i contenuti "simili".