- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- [Spam-engine] Sveglia, Google!
-
Salve volevo apportare la mia esperienza a questo dibattito, anch io ho notato che anche nel mio settore ci sono un sacco di siti che hanno contenuti uguali che si trovano in buone posizioni alcuni di loro anche con abbondante testo nascosto. Una volta con uno di questi siti avevo iniziato uno scambio di links perché il sito si trovava in buona posizione per una key che mi interessava che posteriormente chiusi accorgendomi che utilizzava tecniche spam. Lo feci presente al webmaster in questione e lui mi rispose che questo sistema gli dava ottimi risultati e che lo utilizzava da anni senza mai essere stato sgamato...quindi quoto pienamente quanto detto fino al momento
-
@Ray71 said:
Insomma questi di SeoCom srl hanno studiato per bene... ma non avranno vita lunga IMHO.
credo abbiano invece vita lunghissima. alle spalle, quantomeno. e anche se ogni sito porta loro 100$ l'anno, é gente che s'é fatta i miliardi. e con quelli, la vita te la allunghi...
-
@Ray71 said:
Mah, ad un esame piu' attento non sono pagine esattamente uguali.
bannarli é tecnicamente banale. la struttura é sempre uguale. ne trovi uno, ne banni 10000.
-
@Ray71 said:
Le serp come quella in esempio sono l'eccezione, non la regola.
Nel 99%, o quasi, delle queries non c'e' molto spam (ma dipende molto da come si scelgono le queries, avete altri esempi di queries con un problema simile ? voglio dire una query come 'palmari okprezzi' non e' che viene chiesta centinaia di volte al giorno... e' una goccia tra i miliardi di query della "long tail" ).Completamente d'accordo...ma...
Noi non siamo a conoscenza di come si lavora in Google e dei poteri che ha uno Spam Killers, o un bannatore o chiamatelo come volete.
Così, da ignorante, ragionerei: se io fossi uno spam killer, ad occhio, saprei benissimo che per l'Italia, segare quei siti, significa non solo pulire molte serp, ma togliere addirittura e paradossalmente togliere guadagni ad un mio diretto competitors.
Bene, mi arriva quella Serp, posso bannare la maggior parte di quel network.
Inoltre, ci sono gli strumenti per individuare questi siti web
Non riesco a capire: dove sta il problema a segare alla base i domini?
:bho:
-
Dribblando gli off-topic, e tornando all'aspetto tecnico (che è quello che a me personalmente interessa discutere qui):
@Ray71 said:
Quando hai un indice con svariati milardi di pagine, confrontarle tutte a due a due per trovare quelle 'quasi' identiche potrebbe richiedere mesi, non e' certo un processo che si puo' fare in giornata.
Infatti le pagine non sono "identiche" (perche' il nome del dominio, sempre diverso, e' presente nel testo) quindi un semplice fingerprint non basta.E' vero, si tratta di un calcolo computazionalmente complesso, perché in casi come questo non basta confrontare il filesize, l'hash del sorgente o quello del testo. Tuttavia:
- Google dispone di una grande potenza di calcolo;
- non è da ieri che si parla filtro antiduplicazione e DCP a proposito di Google;
- con ogni probabilità esistono algoritmi ben più efficienti del confonto 1-a-1 (a tal proposito ti invito a leggere questo thread su WebmasterWorld).Insomma, nonostante il caso in esame induca a pensare il contrario, mi rifiuto di credere che Google si limiti a riconoscere come duplicate pagine identiche in senso stretto (stesso filesize, stesso hash).
-
@Giorgiotave said:
Non riesco a capire: dove sta il problema a segare alla base i domini?
Il problema di fondo è che Google non riesce a individuare questo tipo di spam in maniera automatica, ossia senza passare attraverso il solito iter "spam report -> check da operatore -> intervento manuale", che richiede tempo; tempo che rende economicamente praticabile la creazione di spamengine di questo tipo. Come ti avevo scritto in privato:
@Everfluxx said:
Se riesci a farli segare da Google gli taglierai la principale sorgente di traffico per un po', ma temo che questo non sarà un grosso problema per i signori che gestiscono il network: gli basteranno pochi giorni per creare un nuovo network di siti su domini "trusted", un po' di back link et voilà, il gioco è fatto.
-
@Everfluxx said:
mi rifiuto di credere che Google si limiti a riconoscere come duplicate pagine identiche in senso stretto (stesso filesize, stesso hash).
ma infatti, non é possibile. ma neanche se me lo dicessero in lacrime Brin e Page...
-
@Everfluxx said:
Il problema di fondo è che Google non riesce a individuare questo tipo di spam in maniera automatica, ossia senza passare attraverso il solito iter "spam report -> check da operatore -> intervento manuale", che richiede tempo; tempo che rende economicamente praticabile la creazione di spamengine di questo tipo. Come ti avevo scritto in privato:
eheheh
Esatto, e perchè una volta che si fa una segnalazione di massa di network non vengono segati alla base?
-
@Giorgiotave said:
e perchè una volta che si fa una segnalazione di massa di network non vengono segati alla base?
Cosa intendi per "segati alla base"? Io posso anche segnalare a Google decine o centinaia di domini per volta, e Google può anche rimuoverli tutti in un colpo solo, ma se dopo pochi giorni gli stessi spammer creano altrettanti spamengine su nuovi domini, e Google non riesce a riconoscerli automaticamente come tali, il problema è destinato a ripresentarsi periodicamente, ad infinitum.La forza di questi siti sta anche e soprattutto nei back link che ereditano. Un modo per "segare alla base" questo tipo di exploit sarebbe perciò riuscire a individuare quando un dominio scaduto viene cancellato e quindi registrato da un nuovo intestatario, al fine di "resettarne" i back link, cosa che Google è in grado di fare per i TLD per i quali è accreditato come registrar (.biz, .com, .info, .name, .net, .org, .pro), ma non --evidentemente-- per i domini .it.
-
@Everfluxx said:
La forza di questi siti sta anche e soprattutto nei back link che ereditano. Un modo per "segare alla base" questo tipo di exploit sarebbe perciò riuscire a individuare quando un dominio scaduto viene cancellato e quindi registrato da un nuovo intestatario, al fine di "resettarne" i back link, cosa che Google è in grado di fare per i TLD per i quali è accreditato come registrar (.biz, .com, .info, .name, .net, .org, .pro), ma non --evidentemente-- per i domini .it.
Ma sei sicuro sia possibile? Al massimo può cancellare i dati che ha nei propri database per quel sito. Ma non può cancellare i link nelle pagine.
Ovvero: metti che un sito del network è su dmoz. Se scade, magari google può resettare il suo database, ma non può cancellare il link di dmoz. Perciò, quando il network resuscita il sito, dmoz continua a linkarlo (anche se a dir la verità linkava quello prima). E quando google ripasserà sul link di dmoz, penserà che dmoz linka quella pagina, non penserà mai che quel link è un rimasuglio riferito al sito precedente.
Quindi google rimane fregato, e pensa che il link di dmoz sia riferito al sito/network.Google invece, come già detto, dovrebbe trovare il modo per verificare se il tema del sito decaduto rimane uguale al sito resuscitato.
Il controllo umano è limitato. Io, senza quella Serp, non mi sarei mai accorto guardando solo il sito che quello era parte di un network.
Perciò: siamo veramente sicuri che google possa trovare network del genere in breve tempo??
-
@Giorgiotave said:
Non riesco a capire: dove sta il problema a segare alla base i domini?
Ciao Giorgio,
gli annunci cambiano leggermente di sito in sito e come ben sai ci vuole tempo perchè intervenga il filtro antiduplicazione, la grafica è pressochè identica, ma cosa dire delle migliaia di blog che utilizzano lo stesso tema?
Link in ingresso completamente diversi tra i due siti meglio posizionati, alcuni dei quali ottimi.
I siti inoltre provengono originariamente da contesti totalmente differenti.
E' chiaro che avranno vita breve ma è altrettanto chiaro che nel breve periodo Google non ha elementi per etichettarli (se non le segnalazioni umane)
-
@HaccaH said:
Ma sei sicuro sia possibile?
Sì, sono sicuro che sia (tecnicamente) possibile, per i TLD per i quali Google ha accesso diretto ai dati WHOIS, in quanto registrar.Al massimo può cancellare i dati che ha nei propri database per quel sito. Ma non può cancellare i link nelle pagine.
E' ovvio che Google non può cancellare i link nelle pagine. Per "resettare i back link" intendevo attenuare o annullare il peso che i back link ereditati da un dominio scaduto e poi ri-registrato da un diverso intestatario hanno ai fini del ranking, analogamente a quanto Google fa per i link a pagamento.Una repentina variazione del tema di un sito può essere un buon indicatore di questo tipo di spamming che si basa sulla registrazione di domini scaduti con buoni back link.
-
@fheller said:
Ciao Giorgio,
gli annunci cambiano leggermente di sito in sito e come ben sai ci vuole tempo perchè intervenga il filtro antiduplicazione, la grafica è pressochè identica, ma cosa dire delle migliaia di blog che utilizzano lo stesso tema?
Ciao Fabio,
Si lo vedo, ma con delle ricerche mirate....si possono individuare a mano
Il problema è proprio quello, a mano
-
@Everfluxx said:
Cosa intendi per "segati alla base"? Io posso anche segnalare a Google decine o centinaia di domini per volta, e Google può anche rimuoverli tutti in un colpo solo, ma se dopo pochi giorni gli stessi spammer creano altrettanti spamengine su nuovi domini, e Google non riesce a riconoscerli automaticamente come tali, il problema è destinato a ripresentarsi periodicamente, ad infinitum.
Ma come, non è possibile creare un filtro per controllare quando cambia l'intestatario del dominio + copia cache?
Ed in più se è sempre lo stesso intestatario?
Ed in più se la densità di link in home page rispetto al testo è altissima?
Solo su documenti in Italiano?
@Everfluxx said:
La forza di questi siti sta anche e soprattutto nei back link che ereditano. Un modo per "segare alla base" questo tipo di exploit sarebbe perciò riuscire a individuare quando un dominio scaduto viene cancellato e quindi registrato da un nuovo intestatario, al fine di "resettarne" i back link, cosa che Google è in grado di fare per i TLD per i quali è accreditato come registrar (.biz, .com, .info, .name, .net, .org, .pro), ma non --evidentemente-- per i domini .it.
Ma evidentemente servirebbe un filtro che, cambiando intestatario dovrebbe eliminare il valore del sito web, solo in alcuni casi:)
Lo so che sono soluzioni (questa e quelle sopra) uniche e forse difficili da attuare, ma un modo lo si trova.
I domini .it rimangono per 30 giorni in attesa di re-registrazione no?
Da Google stesso, con una ricerca interna, non dovrebbe risultare difficile creare uno spider che tracci i punto.it
Ripeto, so che sono soluzioni troppo specifiche, ma mi interessa moltissimo.
-
@Giorgiotave said:
Ma come, non è possibile creare un filtro per controllare quando cambia l'intestatario del dominio + copia cache?
Per i domini nel TLD .it, non so se Google sia in grado di applicare questo "filtro" in maniera efficace ed efficiente, non avendo accesso diretto ai dati WHOIS. Quanto visto lascerebbe presumere che non lo sia. Ovviamente che il problema sia riconducibile a questo è soltanto una mia ipotesi.
-
Bisogna sempre soffermarsi tra cosa un motore sia in grado di fare e cosa nel momento gli convenga fare.
Piazzare decine di macchine per: monitorare le scadenze degli it, confrontare la variazione dei contenuti dei siti che cambiano owner (perche' io spammer devo comprare un sito solo se scaduto? faccio prima a comprare un sito a bassa resa con buoni valori, pertanto io motore dovro' monitorare tutto, non solo quelli scaduti) riconsiderare tutti i link in base ai nuovi clienti (se io ho un solo sito mio lincato da 10 siti non miei e' una cosa, ma se l'owner di uno di quei 10 siti poi acquista il mio senza modificarlo... ecco che allora quel sito avra' 9 link fuori network ed 1 dal network... una bella differrenza), etc etc ha senso economicamente al fine di individuare un migliaio di siti di spam da bassa classifica?
Per G oggi forse non ancora.
-
quando dico che a G non interessano certe query, intendo che forse non sono interessanti per l'utente (raramente cercate) e quindi lui non spreca risorse per porvi rimedio, né tecnico (algo. filtri), né umano (raters&co).
per quello che ho visto (da gennaio ad oggi) la maggior parte delle query in cui è posizionato il network di Seocom è di basso livello.
raramente capita di vederlo per query stagionali importanti, o per query competitive. e in quei rari casi il giudizio dei raters serve solo per controllo, perchè in SERP il sito già non c'è più (ergo bannato/penalizzato).
es?
recente query su di un evento importante che per 2 settimane ha catalizzato l'attenzione degli appassionati:http://www.faxtor.it/sport/basket/mondiali+basket+2002-2.html
sito valutato e segnalato, ma non presente nelle prime 10 pagine di G. per la stessa query sono state valutate le pagine delle sezioni sportive di msn e yahoo
rimane il fatto che Seocom ha individuato una tecnica (vecchi domini, circuito di overture, query di basso livello), nel tempo l'ha affinata, è riuscito a sfruttarla per miglia e migliaia di query, quadagnando migliaia e migliaia di € (e facendoli guadagnare a Y/overture)
ora il perchè G non banni sistematicamente il person l'address o qualsiasi cosa identifichi il proprietario del dominio, bhe rimane un mistero.
e rimane un mistero il perchè nessuno degli inserzionisti che attivano l'opzione di pubblicazione degli annunci sui siti partner di Y/overture non si lamenti del fatto che i propri annunci non vengano pubblicati su siti VERI, con contenuti VERI, interessanti per l'utente, ma su spamengine estremamente chiusi dal valore quanto meno dubbio.
che rendano anche a loro?
-
@agoago said:
Bisogna sempre soffermarsi tra cosa un motore sia in grado di fare e cosa nel momento gli convenga fare.
OK. Soffermiamoci pure.(perche' io spammer devo comprare un sito solo se scaduto?
Perché lo paghi meno.faccio prima a comprare un sito a bassa resa con buoni valori,
No. Fino a prova contraria, si fa prima a ri-registrare al volo un dominio appena viene cancellato, che non a negoziarne la cessione con l'attuale owner, e fare un cambio di registrant. Soprattutto se un amico maintainer ti dà accesso alla lista dei domini .it in scadenza (lista che puoi facilmente ordinare per PR, o per BL)...ha senso economicamente al fine di individuare un migliaio di siti di spam da bassa classifica?
La stragrande maggioranza degli spamengine sono, in un certo senso, "da bassa classifica": raschiano il fondo del barile del PPC, sfruttando la long tail e posizionandosi per un numero tipicamente molto grande di keyphrase a bassa competitività (ma cumulativamente molto redditizie).Poi ovviamente ci sono spam-engine più o meno redditizi, più o meno raffinati, più o meno eleganti. Ma questa è una distinzione che a me non interessa fare qui.
Perciò ti rigiro la tua stessa domanda: laddove ciò sia tecnicamente possibile, ha senso economicamente per Google investire per individuare e rimuovere dalle SERP quanti più spam engine possibile, anziché lasciarli proliferare indisturbati? Io dico che la risposta è sì.
-
@Matteo said:
quando dico che a G non interessano certe query, intendo che forse non sono interessanti per l'utente (raramente cercate) e quindi lui non spreca risorse per porvi rimedio, né tecnico (algo. filtri), né umano (raters&co).
Come ho appena scritto in risposta ad agoago, penso che questo sarebbe un grave errore, e non voglio credere che il motivo sia disinteresse o lassismo. In realtà finora ho avuto modo di apprezzare un'encomiabile solerzia da parte di Google nel rimuovere spam-engine in seguito a segnalazione (specialmente se effettuata tramite Sitemaps), indipendentemente dalla popolarità della keyphrase segnalata (che comunque è soltanto un esempio fra i tanti possibili). Ne concludo perciò che le cause devono essere prettamente tecniche.per quello che ho visto (da gennaio ad oggi) la maggior parte delle query in cui è posizionato il network di Seocom è di basso livello.
Quasi tutti gli spam-engine sono posizionati per query "di basso livello" (e questo agoago lo sa meglio di me).ora il perchè G non banni sistematicamente il person l'address o qualsiasi cosa identifichi il proprietario del dominio, bhe rimane un mistero.
Perché, che tu sappia Google effettua questo tipo di ban ad personam? (E se sì, si tratta di una prassi comune, oppure viene attuata solo in casi eccezionali?)e rimane un mistero il perchè nessuno degli inserzionisti che attivano l'opzione di pubblicazione degli annunci sui siti partner di Y/overture non si lamenti del fatto che i propri annunci non vengano pubblicati su siti VERI, con contenuti VERI, interessanti per l'utente, ma su spamengine estremamente chiusi dal valore quanto meno dubbio.
Beh, non è vero che nessuno si lamenta. Noi a suo tempo avevamo provato a farci sentire presso il Servizio Clienti di Yahoo! Search Marketing. Purtroppo la nostra ultima mail, nella quale chiedevamo esplicitamente quali garanzie YSM è in grado di offrire ai propri clienti e rivenditori in merito alla qualità dei loro cosiddetti "partner di secondo livello" è rimasta senza risposta.
-
Aggiungo un'importante precisazione sull'argomento "spam-engine e Yahoo! Search Marketing": aderendo al circuito pay-per-click di YSM, di fatto non è possibile impedire la visualizzazione dei propri annunci sui cosiddetti "partner di secondo livello" di YSM (es. cleansearch.info). Disabilitare l'opzione "Content Match" (l'equivalente dell'opzione "Rete di contenuti" di Google AdWords, che controlla la syndication degli annunci sul circuito di AdSense) non serve a nulla, perché questi siti sono considerati motori di ricerca partner di Yahoo! Search Marketing, e fanno parte a tutti gli effetti della rete di ricerca "standard" di Yahoo!.