Da quando google aiuta i contenuti duplicati?

van.basten

Da quando google aiuta i contenuti duplicati?

Salve,
fortuna che tutti dicono che google è talmente bravo a capire se un contenuto originale o meno!

Nella giornata del 10 dicembre ho pubblicato un Comunicato stampa sul mio blog.
Prima di pubblicarlo mi sono accertato che non fosse uno delle migliaia già presenti su internet, constatato che nessuno l'aveva ancora pubblicato ho scritto l'articolo.
Google dopo pochi minuti l'ha indicizzato e tutto è filato liscio.
Tutto fino ad ora che vado a controllare e vedo che è sparita la mia pagina (fino a ieri sera in prima posizione) ed è stata sostituita con alcuni blog che hanno pubblicato il cs dopo di me!

Ora mi chiedo, come è possibile una cosa del genere?!?!

marco.quadrella

Tra l'autore e l'utente, Google sceglie l'utente: non gli interessa chi ha pubblicato prima il contenuto ma quale pagina, secondo i suoi parametri, risponde meglio alle esigenze di chi sta cercando. Se la pagina dell'altro sito è ritenuta più affidabile e tematizzata, sarà la tua pagina a risultare trai duplicati.

Questa è la motivazione, per quanto discutibile.
Ti informo che la situazione, per mezzo dei medesimi meccanismi, può teoricamente peggiorare: se altri siti continuano a copiarti e ad essere ritenuti più affidabili corri un concreto rischio di finire affossato dagli algoritmi (con sostanziali perdite di traffico). Naturalmente non ho elementi per ritenere che possa capitare.

Il pericolo di incorrere in penalizzazioni non meritate, certe volte addirittura causate volontariamente da un concorrente, è concreto e gli strumenti di difesa sono pochi e poco efficaci.

Spero di averti chiarito le idee (e se non l'ho fatto, chiedi pure!) almeno dal punto di vista tecnico.

criss

Ciao Van Basten,

purtroppo quello che hai descritto è uno degli errori più frequenti di google.
Lui non da l'effettiva importanza a chi ha pubblicato prima (per lo meno su lasso temporale breve) ma predilige chi secondo lui, per quell'argomento, è più utile all'utente (solitamente il sito più in trust).

E fin qua...basta saperlo e uno bene o male si mette il cuore in pace.

A me è capitato invece di avere contenuti che mi son stati copiati da siti molto meno in trust di me...e sono sparito io dalle serp.

Questo è molto più preoccupante come errore.

van.basten

Il sito che mi ha superato non penso sia più in trust del mio, è un sito che pubblica comunicati stampa è su blogger e per trovare contenuti originali devi cercare almeno fra 50 pagine!

criss

Dall'ultimo Convegno GT sono arrivate notizie, poi suffragate anche dagli esperti del settore, che la velocità di un sito stia diventando estremamente importante.

Ci sono anche dei test a riguardo in corso da qualcuno di questi esperti.

Uno di questi test riguarda in parte la casistica della tua problematica. Tu mi parli di un sito su blogger, quindi sicuramente google friendly ma soprattutto con elementi hostati su google. Sommando gli addendi troviamo un risultato di velocità sicura.

Non sottovalutare anche questo aspetto. Sito più performante=sito migliore per l'utente, ne consegue che i suoi contenuti sono più utili dei tuoi (essendo uguali).

van.basten

C'ero anche io al Convegno GT
Comunque non ritengo giusto che un sito perchè è più veloce possa passare avanti. Mi spiego meglio.
Se la serp è la stessa ma il testo della pagina è diversa allora concordo con il sito + performante, se invece il testo è uguale dovrebbe esserci il sito con il contenuto originale!
Poi tieni conto di una cosa, il mio sito è stato eliminato completamente dalla serp mentre altri che hanno copiato dopo il contenuto sono sopra!

Penso che google invece di pensare al social search debba migliorare un po' questo perchè non è la prima volta che lo vedo. Mi capita spesso di vedere cose del genere infatti non ho mai creduto al fatto che google eliminasse i siti in caso di contenuto duplicato o meglio li elimina con criteri diversi da quelli che si dicono in giro...

van.basten

NEWS: il sito è ritornato in prima posizione

Comunque la serp è questa:
http://snipurl.com/tpc6c

pacoweb

Ciao Van Basten,

purtroppo il problema dei contenuti originali copiati da altri siti, fa molto spesso tantissimi danni e penalizza anche l'autore primario.

Concordo con Criss sia sul fatto che siti che copiano e che hanno un trust maggiore possono scavalcare il sito originale e sia sul discorso delle performance del server.

Ottimizzare quest'ultimo da sicuramente vantaggi.

Sono contento che il tuo sito sia tornato in prima posizione. Ma come difendersi in futuro dai "copioni"?

Per un blog che sforna articoli con una certa frequenza è improponibile parlare di copyright o comunque di diritto d'autore, perchè i costi sarebbero fuori portata e impossibili.

Ovviamente spese per un legale sarebbero anch'esse elevate.

A me da poco hanno copiato alcuni testi su un mio sito...

Ho scritto una mail dove intimavo il webmaster a rimuovere il tutto. In caso contrario ho minacciato di ricorrere alle vie legali.

Per questa volta sono stato "fortunato" e i contenuti sono stati rimossi subito. Purtroppo però alcuni (se non quasi tutti) se ne possono fregare altamente perchè sanno che forse alle vie legali non ricorreresti mai realmente.

E' una triste realtà purtroppo alla quale Google, con i suoi potenti mezzi, dovrebbe cercare di porre di rimedio.

van.basten

Concordo Paco, i danni quando vengono copiati certi contenuti non sono da poco!

Mi è capitato recentemente di aver scritto un articolo corposo ed interessante, dopo 5 minuti mi sono accorto che era stato copiato, fortunatamente era un piccolo blog e me l'hanno rimosso ma a volte capita di trovarsi davanti a grandi siti che non tolgono affatto i contenuti!

bluwebmaster

Quoto LaBussola e Criss.
Il primo in quanto anch'io ho avuto amara esperienza di quanto dice e ho dovuto mettere mano ai legali per richiedere la rimozione di intere pagine copiate da altri : anzi temo, poi LaBussola che ritengo un luminare sulla questione me lo confermerà, che se Google ti "targa" come "copiatore" peggio ancora , termine conaito fresco fresco, come "il replicatore inutile", per quanto tu possa essere il primo a dar notizia, se ti targa così finisci in un angolino da dove , ohi, è difficile uscirne.

Anche se temo che ci siano anche altri fattori che incidono in questa "targa" che ti assegna BigG : credo che molto stiano facendo sulla "semantica" .
In pratica, magari dico un eresia e chiedo perdono in anticipo, ho impressione che se dici "a blocchi" le stesse cose che dicono gli altri, non importa che tu abbia trust o meno, conta abbastanza , secondo me, anche il numero di click ricevuti dal motore : in pratica BigG sta dando più importanza all'utente che all'autore come dice LaBussola.

Per quello che diceva Criss sulla velocità credo di poter confermare in pieno.
Ho messo mano alla riduzione delle immagini, attivato la compressione gzip, insomma ho cercato di rendere veloce i siti e, almeno apparentemente, un mio problema sta rientrando ( sto facendo le opportune verifiche ovviamente ).

Resta da capire che significato esatto abbia la penalizzazione, o almeno presunta tale, dei cosidetti -7 gg sulla penalizzazione. (Vedi post relativo ).

Ho notato infatti che su alcuni mie siti opportunamente trattati secondo i consigli di LaBussola la situazione pare migliori e tenda a risolversi.
Mentre vedo che il sito di un altro amico che soffriva gli stessi problemi ( cremona . blogolandia .it ) continua a maturare il -7 gg sull'indicizzazione.

Per il problema legale, ti consiglio vivamente intanto di predisporre un modello abbastanza "duro " di richiesta di rimozione da inviare via email.
Poi un secondo, dove avvisi che stai scrivendo anche al provider, che secondo gli orientamenti della giurisprudenza attuale è il "primo responsabile" della pubblicazione.
E poi un terzo, qualora resti inascoltato, dove avvisi il provider che stai per depositare la Querela.
Ti assicuro che nel 90 % dei casi risolvi così : per gli altri 10 % ...carta bollata.

In alcuni casi ti assicuro ci sono provider ( il più serio sembra essere altervista ) che prendono seri e immediati provvedimenti, altri che sono il massimo della scorrettezza e che solo dopo aver minacciato la querela ti rispondono che loro non sono responsabili ecc.
Prova a inviargli copia di qualche sentenza di provider condannati e ...volano!

criss

Bella discussione, son contento si sia animata un po'

@Van Basten:
c'eri anche te al convegno? Può essere allora ci siamo incrociati dato che ho parlato praticamente con più della metà delle persone che c'erano
Per quello che dici sul "giusto e non giusto" come non quotarti, e anche sul discorso che google sta dando troppa importanza al social...o ancora meglio al "real search".
Per il resto purtroppo devo come sempre far ritornare alla mente una reminescenza che tutti abbiamo sicuramente vissuto da bambini. E cioè quando c'era quello con il pallone che diceva "il pallone è mio e gioca chi voglio io con le mie regole". Ecco...google è proprio alla stregua di un bambino str***o e così bisogna trattarlo...accontentare i suoi capricci.
Per quanto riguarda il test sulle duplicazioni e velocità invece non posso darti ulteriori informazioni perchè sicuramente ne uscirà un ampio estratto sul forum tra non molto tempo
Di sicuro posso comunque dirti che le pagine duplicate e che sembrano uscite dal ranking non vengono eliminate dall'indice, ma solamente "parcheggiate" un attimo.

@pacoweb:
noi con la ditta invece siamo andati più volte per vie legali per i motivi citati di testo duplicato. Nell'80% delle volte sono stati tolti appena prima di far partire la causa (leggasi lettera dello studio legale) mentre il 15% delle volte i copioni hanno pagato. Il restante 5% per un piccolo cavillo non si è riusciti a dimostrare l'originalità assoluta del nostro testo e abbiamo dovuto cambiare noi il testo (o così o lasciarlo duplicato eran le soluzioni).

@bluwebmaster:
con i tuoi accorgimenti hai notato sensibili miglioramenti nella velocità del sito?

Ciao a tutti..

mister.jinx

Riguardo ai duplicati c'è di peggio come sicuramente avrete già letto qua http://www.giorgiotave.it/forum/consigli-seo-e-penalizzazioni/129874-penalizzazione-da-violazione-copyright.html .

Sto conducendo da un pò di tempo dei test su contenuti duplicati in particolare sui blog (con e senza autoblogging).

Mentre analizzo i miei risultati posso solo segnalare che in SERP ad esempio cercando convegno gt 2009 oppure vincitore xfactor (segnalazione di Fortunecat) compaiono anche aggregatori di news.

van.basten

Per fortuna non è il mio caso

Comunque ritengo che se google avesse un buon algoritmo in fatti di contenuti duplicati, gli aggregatori non sarebbero così numerosi! a me capita spesso che siano proprio questi a rubarmi gli articoli. Il problema è che secondo me google conta anche il numero di post.
Questi siti hanno un gran numero di post perchè li copiano, il sito come il mio non possono fare un numero così alti di qualità perchè dietro ad ogni articolo ci sono ricerche accurate e spesso per scriverne uno ci metto anche 1 ora!

@Criss
non penso di aver parlato con te, non ho parlato con tanta gente al convegno

mister.jinx

In realtà Google secondo me ha già strutturato una piattaforma per gestire i duplicati.

C'è un brevetto in cui si parla degli autori dei contenuti e della possibilità di far valere la paternità degli stessi.

Poi le cose si fanno più complesse (mancano del tutto riferimenti grafici a supporto) e si dice che in certi casi i contenuti potrebbero diventare a pagamento (ma questa è una citazione "a memoria" di quel lungo brevetto, quindi mi riservo di guardarla con più calma).

Infine Google precisa nello stesso brevetto che, in caso di errori temporanei di server o di 404 verso una pagina specifica, potrebbe mostrare e usare una qualunque altra pagina duplicata al posto di quella che dà errore.

Google giustifica questo comportamento dicendo che deve soddisfare la richiesta originaria dell'utente.

Di recente (1 Dicembre) è stato riconosciuto a Google questo brevetto sui duplicati del 2003 che non ho ancora letto ma credo che purtroppo non dica molto di nuovo.

Invece da controlli fatti anche a fronte della penalizzazione di Deborahdc sembra confermato quanto dechigno accennava per le sue fluttuazioni sinusoidali e cioè che Google usi uno spider apposito per analizzare un sito molto più in profondità rispetto al solito in caso di duplicazione.

Sembra quindi confermata la vecchia idea del "bad spider" che avevo indicato qui individuabile dai classici 2 picchi ravvinicinati nel Google Webmaster Tools come descritto accuratamente da dechigno nel suo intervento allo convegno gt 2008.

bluwebmaster

@criss

Si, ho notato , da quando ho ottimizzato un pò di siti nel senso di renderli più veloci , un aumento delle pagine scansionate ( Google tools webmaster ) anche se...si è ridotto ovviamente la quantità di Kb scaricata.
Diciamo che una settimana dopo aver ottimizzato in quanto a "peso" le pagine, ancorchè ho seguito anche i preziosi consigli di LaBussola e di Dechigno, pare che il problema di cui venivo afflitto ( -7 gg sull'indicizzazione della pagine) sia sparito (speriamo bene).
Anche perchè posso pensare che quel -7 sull'indicizzazione sia in un certo qual senso legata al fattore "velocità", cioè minor peso delle pagine.
Adesso verificherò i posizionamenti e ti saprò dire se c'è stata qualche novità anche in tal senso.

@Mister Jinx

Anch'io nel periodo immediatamente prima e durante quella specie di diavoleria di penalizzazione dei -7 gg ho avuto due picchi incredibili sia in fatto di pagine scansionate che di Kb scaricati e questo parallelamente su tutti i siti!!!
Che bello! Il dottor BigG mi ha visitato a "fondo", insomma una bella visita specialistica!

mister.jinx

Si si infatti se vuoi posso aggiungere che non si tratta solo di contenuti duplicati secondo me ma anche di un altro concetto più "tosto" e viscido da individuare: la similarità.

Tornerò a postare su questo concetto con qualche altra prova più concreta. Per ora la mia è stata soltanto una intuizione (confermata dai "picchi" appunto).

marco.quadrella

Il concetto di "similarità"/"vicinanza semantica" è assolutamente condivisibile e corrisponde anche ad alcune mie idee: se infatti per dimostrare la presenza di contenuto duplicato facciamo spesso ricorso al virgolettato, non è detto che cambiare qualche parola risolva la situazione.

Penso in particolare a quei siti che si limitano a riportare i contenuti tratti da fonti ad altissima tematizzazione (domini di compagnie telefoniche, case di distribuzione cinematografica, quotidiani nazionali, ...) senza preoccuparsi di aggiungere valore.
In tutti questi casi chi ripubblica si adopera in giri di parole più o meno impegnativi: fornisce nuovi documenti ma non nuovi contenuti.

Ogni qual volta viene eseguita una richiesta, Google seleziona le migliori pagine e poi, tra queste, tenta di stabilire dei criteri di "somiglianza" (ad esempio valutando le parole utilizzate accanto a quelle ricercate, la quantità del contenuto aggiunto, ...).

Per fare un esempio, se sul sito di un grosso brand trovo 5 righe per presentare una nuova notizia, del tipo:

"Da oggi con GrossoBrand , attivando l'offerta VicinoACasa puoi parlare con tutti i numeri di telefono della tua città a 10 centesimi il minuto ..."

E la riscrivo, mutatis mutandis, senza aggiungere nulla di mio in:

"Nuova offerta VicinoACasa di GrossoBrand per parlare al telefono all'interno della tua città a soli 10 centesimi al minuto ..."

Quando l'utente cercerà "offerta vicinoacasa di grossobrand" rischierò parecchio di venire filtrato. Troppi di questi inconvenienti e Google comincerà a ritenermi poco affidabile.
Nella mia idea questa sopraggiunta inaffidabilità influirà sul trust generale del dominio aumentando la possibilità di ripercussioni a livello di posizionamento, o peggio ancora di penalizzazioni.

Lasciando il dibattito e tornando all'origine, vorrei far notare che la situazione di Van Basten non è rassicurante: se è primo per il titolo del suo post (che è ancora dei link interni), per il momento i problemi più gravi rimangono: tiny.cc/5XFpA (appare in terza posizione, con la home ed il post originale è negli oltre 150 risultati omessi). Ovviamente, non è detto che vi siano conseguenze, volevo semplicemente evidenziare come il problema della duplicazione sia sempre più complesso.

Scusate se vi ho annoiato con questo "approfondimento" delle idee avute da bluewebmaster (circa le semantica) e mister.jinx (che ha parlato di similarità). Spero di essere stato chiaro e che altri contributi possano aggiungersi alla discussione.

van.basten

@LaBussola said: