[Spam-engine] Sveglia, Google!

giorgiotave

i soliti network dei SeoCom S.r.l.

i raters li valutano quotidianamente, come spam ovviamente. ma forse la query "palmari okprezzi" a G non interessa.

Matteo hai ragione

Ma il punto è che qualsiasi chiave in cui compare una pagina di quel dominio è spam e quindi i raters non dovrebbero valutarli come spam, perchè non ci dovrebbero essere.

Anzi, se li bannassero di sana pianta, faciliterebbe il lavoro dei raters

No? Può essere che sbaglio.

alessio.okprezzi.it

Beh c'è da dire che la query in questione oltre a non interessare a G, è certamente "più attaccabile" dagli spam-engine: vuoi per il semplice aspetto della competitività, vuoi per un inevitabile (?) minore controllo da parte di G e dei suoi pauàrenge' su serp così secondarie.
Questione di risorse alla fine?

Le segnalazioni naturalmente ci sono state, ma caspita: possibile che sia necessario segnalare gli spam-engine tra loro identici annidiati nella stessa serp uno ad uno?
Almeno in questo caso pare infatti che a niente/nessuno in G interessi o venga in mente di mettere in moto una certa logica: se viene segnalato uno spam-engine su una serp basterebbe effettuare una verifica abbastanza elementare sulla serp in questione al fine di ripulirla da risultati pressochè identici allo spam-engine segnalato per primo... insomma, un "semplice" match dei risultati.

IF "A" in serp "xyz" è spam-engine AND in serp "xyz" ci sono anche "B, C, D ed E"; IF "B, C, D ed E" = "A", THEN SEGO "A, B, C, D ed E"!

must

ad ogni modo, a parte tutto, a me pare siamo andati un po' fuori tema.
voglio dire, che importanza ha la competitivitá di una keyword?
questi spam engine non hanno alcuna ragione di essere nell'indice di nessun motore di ricerca. neanche tra i risultati supplementari. neanche oltre la millesima posizione. i motori dovrebbero metterci sopra una bella croce, a tutto il dominio.
basta. fine. stop. punto.

@Matteo said:

ma forse la query "palmari okprezzi" a G non interessa.
Che cosa vuoi dire, Matteo?

@HaccaH said:

Magari ha semplicemente in un filtro antiduplicazione, che fa rispettare la regola che è plagio solo se ci sono più di un tot (credo 250) di caratteri in successione uguali.
Credo che il filtro antiduplicazione non prenda in considerazione la lunghezza delle stringhe identiche, ma semmai la percentuale di contenuti identici sul totale del documento (anche questa è probabilmente una semplificazione). In ogni caso, i siti in questione differiscono solo per poche centinaia di byte/pagina.

Ma MSN prende dati da yahoo?? secondo il grafico si...
Leggi la legenda in basso: freccia gialla = paid results. MSN Search (ora Windows Live Search) mostra gli annunci PPC di Yahoo! Search Marketing (ex-Overture).

fheller

@must said:

sicuramente google non ha alcun interesse a far valutare ai quality raters una query di questo tipo

ma cosa dobbiamo dedurre? forse che, algoritmicamente, Google è completamente incapace di riconoscere lo spam? si va solo a manina? possibile nel 2006? :bho:

Ciao,

sì è abbastanza incapace...

Io stesso (a scopo di "studio", non ricavo una lira visto che non ho inserito adsense) ho realizato uno spam engine che fa un mash up di varie fonti e si sta posizionando bene.
Di cosa ci meravigliamo? Quello agli occhi di Google non è spam. Anzi il recente cambiamento nelle serps ha solo fatto emergere nuovi siti spam che spesso sono solo stati realizzati in modo più furbo degli altri.

L'unico modo che ha per sapere che è spam sono le segnalazioni degli utenti, quindi se un sito diventa particolarmente fastidioso non c'è altro da fare che continuare a segnalare e sperare...Mi sa che Google dovrà presto assumere nuova gente

ray71

Qualche osservazione sull'argomento:

Secondo me Google ha tutto l'interesse a combattere lo spam, e credo anzi stia facendo un buon lavoro, nonostante tutto.

Non e' vero che non ha bisogno di farlo per via della sua posizione dominante, infatti, a livello mondiale, il suo market share non e' poi cosi' alto, credo non arrivi neanche al 50%.

Le serp come quella in esempio sono l'eccezione, non la regola.
Nel 99%, o quasi, delle queries non c'e' molto spam (ma dipende molto da come si scelgono le queries, avete altri esempi di queries con un problema simile ? voglio dire una query come 'palmari okprezzi' non e' che viene chiesta centinaia di volte al giorno... e' una goccia tra i miliardi di query della "long tail" ).

Sono d'accordo sul fatto che questo tipo di pagine dovrebbe essere abbastanza semplice da riconoscere ed eliminare alla fonte, ma a un esame piu' attento, non e' una cosa banale.

Quando hai un indice con svariati milardi di pagine, confrontarle tutte a due a due per trovare quelle 'quasi' identiche potrebbe richiedere mesi, non e' certo un processo che si puo' fare in giornata.
Infatti le pagine non sono "identiche" (perche' il nome del dominio, sempre diverso, e' presente nel testo) quindi un semplice fingerprint non basta.

Inoltre, i domini sono sempre diversi e "freschi" (anche se Google li bannasse dopo due giorni, nel frattempo ne hanno creati altrettanti).
Per esempio, per quella serp, i domini dei risultati che vedo oggi sono diversi da quelli che vedevo ieri...

Insomma e' facile a dirsi, ma ci vorra' ancora un po' di tempo (spero non molto) per liberarsi di questo tipo di spam...

ray71

@Everfluxx said:

Credo che il filtro antiduplicazione non prenda in considerazione la lunghezza delle stringhe identiche, ma semmai la percentuale di contenuti identici sul totale del documento (anche questa è probabilmente una semplificazione). In ogni caso, i siti in questione differiscono solo per poche centinaia di byte/pagina.

Mah, ad un esame piu' attento non sono pagine esattamente uguali.
Se per esempio prendi i risultati nella prima pagina della query incriminata,
ogni pagina delle spam-engine presenta diversi risultati (da 10 a 20).
Le pagine sembrano identiche a un occhio umano (stesso sfondo, stessa grafica), hanno molti contenuti in comune, ma anche contenuti leggermente diversi tra di loro...
Insomma questi di SeoCom srl hanno studiato per bene... ma non avranno vita lunga IMHO.

OK. Riassumendo, a mio avviso qui i problemi sono due, e neanche piccoli:

Google si dimostra incapace di riconoscere automaticamente come sostanziali doppioni siti con un'alta percentuale di contenuti identici (confrontate i sorgenti HTML delle pagine: cambia giusto il dominio/nome del sito, contenuto nei tag <TITLE> e <META>, nell'attributo HREF dei link traccianti, e nell'intestazione "Cerca in <nomesito>!" sopra il box di ricerca; per il resto, i contenuti sono identici; la struttura del sito è identica; persino il template è identico, cribbio).
Google si dimostra incapace di individuare automaticamente quando un nome a dominio .it viene cancellato e successivamente ri-registrato da un diverso intestatario (e ne "eredita" i back link).

@Ray71 said:

Mah, ad un esame piu' attento non sono pagine esattamente uguali.
Se per esempio prendi i risultati nella prima pagina della query incriminata,
ogni pagina delle spam-engine presenta diversi risultati (da 10 a 20).
Hai ragione. Questo particolare m'era sfuggito.

ale58

@Ray71 said:

Inoltre, i domini sono sempre diversi e "freschi" (anche se Google li bannasse dopo due giorni, nel frattempo ne hanno creati altrettanti).

Forse, gli host di questi siti dovrebbero sentirsi un pò responsabili della situazione ....
E' prevista o probabile o possiibile una bannatura degli host?
Saluti a tutti Alessio

lord.baron

Salve volevo apportare la mia esperienza a questo dibattito, anch io ho notato che anche nel mio settore ci sono un sacco di siti che hanno contenuti uguali che si trovano in buone posizioni alcuni di loro anche con abbondante testo nascosto. Una volta con uno di questi siti avevo iniziato uno scambio di links perché il sito si trovava in buona posizione per una key che mi interessava che posteriormente chiusi accorgendomi che utilizzava tecniche spam. Lo feci presente al webmaster in questione e lui mi rispose che questo sistema gli dava ottimi risultati e che lo utilizzava da anni senza mai essere stato sgamato...quindi quoto pienamente quanto detto fino al momento

must

@Ray71 said:

Insomma questi di SeoCom srl hanno studiato per bene... ma non avranno vita lunga IMHO.

credo abbiano invece vita lunghissima. alle spalle, quantomeno. e anche se ogni sito porta loro 100$ l'anno, é gente che s'é fatta i miliardi. e con quelli, la vita te la allunghi...

must

@Ray71 said:

Mah, ad un esame piu' attento non sono pagine esattamente uguali.

bannarli é tecnicamente banale. la struttura é sempre uguale. ne trovi uno, ne banni 10000.

giorgiotave

@Ray71 said:

Le serp come quella in esempio sono l'eccezione, non la regola.
Nel 99%, o quasi, delle queries non c'e' molto spam (ma dipende molto da come si scelgono le queries, avete altri esempi di queries con un problema simile ? voglio dire una query come 'palmari okprezzi' non e' che viene chiesta centinaia di volte al giorno... e' una goccia tra i miliardi di query della "long tail" ).

Completamente d'accordo...ma...

Noi non siamo a conoscenza di come si lavora in Google e dei poteri che ha uno Spam Killers, o un bannatore o chiamatelo come volete.

Così, da ignorante, ragionerei: se io fossi uno spam killer, ad occhio, saprei benissimo che per l'Italia, segare quei siti, significa non solo pulire molte serp, ma togliere addirittura e paradossalmente togliere guadagni ad un mio diretto competitors.

Bene, mi arriva quella Serp, posso bannare la maggior parte di quel network.

Inoltre, ci sono gli strumenti per individuare questi siti web

Ad esempio

Non riesco a capire: dove sta il problema a segare alla base i domini?

:bho:

Dribblando gli off-topic, e tornando all'aspetto tecnico (che è quello che a me personalmente interessa discutere qui):

@Ray71 said:

Quando hai un indice con svariati milardi di pagine, confrontarle tutte a due a due per trovare quelle 'quasi' identiche potrebbe richiedere mesi, non e' certo un processo che si puo' fare in giornata.
Infatti le pagine non sono "identiche" (perche' il nome del dominio, sempre diverso, e' presente nel testo) quindi un semplice fingerprint non basta.

E' vero, si tratta di un calcolo computazionalmente complesso, perché in casi come questo non basta confrontare il filesize, l'hash del sorgente o quello del testo. Tuttavia:

Google dispone di una grande potenza di calcolo;
non è da ieri che si parla filtro antiduplicazione e DCP a proposito di Google;
con ogni probabilità esistono algoritmi ben più efficienti del confonto 1-a-1 (a tal proposito ti invito a leggere questo thread su WebmasterWorld).Insomma, nonostante il caso in esame induca a pensare il contrario, mi rifiuto di credere che Google si limiti a riconoscere come duplicate pagine identiche in senso stretto (stesso filesize, stesso hash).

@Giorgiotave said:

Non riesco a capire: dove sta il problema a segare alla base i domini?

Il problema di fondo è che Google non riesce a individuare questo tipo di spam in maniera automatica, ossia senza passare attraverso il solito iter "spam report -> check da operatore -> intervento manuale", che richiede tempo; tempo che rende economicamente praticabile la creazione di spamengine di questo tipo. Come ti avevo scritto in privato:

@Everfluxx said:

Se riesci a farli segare da Google gli taglierai la principale sorgente di traffico per un po', ma temo che questo non sarà un grosso problema per i signori che gestiscono il network: gli basteranno pochi giorni per creare un nuovo network di siti su domini "trusted", un po' di back link et voilà, il gioco è fatto.

must

@Everfluxx said:

mi rifiuto di credere che Google si limiti a riconoscere come duplicate pagine identiche in senso stretto (stesso filesize, stesso hash).

ma infatti, non é possibile. ma neanche se me lo dicessero in lacrime Brin e Page...

giorgiotave

@Everfluxx said:

Il problema di fondo è che Google non riesce a individuare questo tipo di spam in maniera automatica, ossia senza passare attraverso il solito iter "spam report -> check da operatore -> intervento manuale", che richiede tempo; tempo che rende economicamente praticabile la creazione di spamengine di questo tipo. Come ti avevo scritto in privato:

eheheh

Esatto, e perchè una volta che si fa una segnalazione di massa di network non vengono segati alla base?

@Giorgiotave said:

e perchè una volta che si fa una segnalazione di massa di network non vengono segati alla base?
Cosa intendi per "segati alla base"? Io posso anche segnalare a Google decine o centinaia di domini per volta, e Google può anche rimuoverli tutti in un colpo solo, ma se dopo pochi giorni gli stessi spammer creano altrettanti spamengine su nuovi domini, e Google non riesce a riconoscerli automaticamente come tali, il problema è destinato a ripresentarsi periodicamente, ad infinitum.

La forza di questi siti sta anche e soprattutto nei back link che ereditano. Un modo per "segare alla base" questo tipo di exploit sarebbe perciò riuscire a individuare quando un dominio scaduto viene cancellato e quindi registrato da un nuovo intestatario, al fine di "resettarne" i back link, cosa che Google è in grado di fare per i TLD per i quali è accreditato come registrar (.biz, .com, .info, .name, .net, .org, .pro), ma non --evidentemente-- per i domini .it.

haccah

@Everfluxx said:

La forza di questi siti sta anche e soprattutto nei back link che ereditano. Un modo per "segare alla base" questo tipo di exploit sarebbe perciò riuscire a individuare quando un dominio scaduto viene cancellato e quindi registrato da un nuovo intestatario, al fine di "resettarne" i back link, cosa che Google è in grado di fare per i TLD per i quali è accreditato come registrar (.biz, .com, .info, .name, .net, .org, .pro), ma non --evidentemente-- per i domini .it.

Ma sei sicuro sia possibile? Al massimo può cancellare i dati che ha nei propri database per quel sito. Ma non può cancellare i link nelle pagine.

Ovvero: metti che un sito del network è su dmoz. Se scade, magari google può resettare il suo database, ma non può cancellare il link di dmoz. Perciò, quando il network resuscita il sito, dmoz continua a linkarlo (anche se a dir la verità linkava quello prima). E quando google ripasserà sul link di dmoz, penserà che dmoz linka quella pagina, non penserà mai che quel link è un rimasuglio riferito al sito precedente.
Quindi google rimane fregato, e pensa che il link di dmoz sia riferito al sito/network.

Google invece, come già detto, dovrebbe trovare il modo per verificare se il tema del sito decaduto rimane uguale al sito resuscitato.

Il controllo umano è limitato. Io, senza quella Serp, non mi sarei mai accorto guardando solo il sito che quello era parte di un network.

Perciò: siamo veramente sicuri che google possa trovare network del genere in breve tempo??