- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- [Spam-engine] Sveglia, Google!
-
Ciao OKPrezzi,
@OkPrezzi said:
Doveroso per quanto breve preambolo: Must ci sta dando una seomano.
Siete in ottime seomani, allora.Qualche giorno fa gli posto questa serp...
La query segnalatami da Giorgio è leggermente diversa (togli "prezzi" dalla keyphrase) e produce una SERP ben peggiore...naturalmente su quella serp eravamo in prima posizione fino a poco tempo fa.
Penso che chiunque si aspetterebbe di vedere questa pagina in prima posizione per quella query: la segnalazione a Google è una specie di dovere morale, in questo caso.
-
@Everfluxx said:
Ciao OKPrezzi,
Siete in ottime seomani, allora.
Sì, ci fa i resti in 'nduja come facevano 20 anni fa agli alimentari con le liquirizie@Everfluxx said:
La query segnalatami da Giorgio è leggermente diversa (togli "prezzi" dalla keyphrase) e produce una SERP ben peggiore...
Sì hai perfettamente ragione, infatti me ne sono reso conto dopo aver postato ed ho aggiunto l'altra serp@Everfluxx said:
Penso che chiunque si aspetterebbe di vedere questa pagina in prima posizione per quella query: la segnalazione a Google è una specie di dovere morale, in questo caso.
Pagina che infatti era lì tutta felice ancor prima dei ritocchi al title: fino a 3 settimane fa infatti tutte le pagine avevano il medesimo title della home (sìsì lo so, non mi frustate, le modifiche sono tuttora in corso :(), compresa quella naturalmente.
-
@OkPrezzi said:
Sì, ci fa i resti in 'nduja come facevano 20 anni fa agli alimentari con le liquirizie
Pagina che infatti era lì tutta felice ancor prima dei ritocchi al title: fino a 3 settimane fa infatti tutte le pagine avevano il medesimo title della home (sìsì lo so, non mi frustate, le modifiche sono tuttora in corso :(), compresa quella naturalmente.
Beh, una cosa è certa: non è a causa dei ritocchi apportati al <title> che siete spariti da quella SERP. Su questo puoi stare abbastanza tranquillo.
-
@Everfluxx said:
Beh, una cosa è certa: non è a causa dei ritocchi apportati al <title> che siete spariti da quella SERP. Su questo puoi stare abbastanza tranquillo.
Lo penso anche io, ma nella [url=http://www.google.it/search?hl=it&client=firefox-a&rls=org.mozilla%3Ait%3Aofficial&q=prezzi+palmari+okprezzi&btnG=Cerca&meta=]seconda serp emerge la presenza di siti che a prima vista non direi essere coinvolti nel bordello degli spamengine: possibile che Google in questo momento di defaiance debba ancora digerire le nostre modifiche... pazienteremo sulla riva del fiume
-
Ironicamente, gli spam-engine sono saliti sulle SERP di Google per quella query grazie al fatto che okprezzi era (e lo è ancora) ben posizionato su Yahoo!.
-
Vorrei far notare che non solo Google ha questo problema:
yahoo
virgilio
altavista
E persino il nuovissimo:
msnA quanto pare, però, quelli esteri non sentono il problema (o così mi pare):
gigablast
clusty
O perlomeno ci sono, ma non in maniera così rilevante come in quelle italiane.Perchè allora questi motori stranieri non risentono il problema, mentre quelli italiani, benchè importanti, si?
E poi, non credo che per google sia impossibile bloccare spam del genere.
Basterebbe un algoritmo che confrontasse se le pagine sono uguali.
-
@HaccaH said:
Perchè allora questi motori stranieri non risentono il problema, mentre quelli italiani, benchè importanti, si?
Probabilmente perché Gigablast ha un indice più piccolo e meno aggiornato rispetto ai big player Google, Yahoo! e MSN.Riguardo agli altri motori, Alice (ex-Virgilio) mostra i risultati di Google. Altavista usa l'indice di Yahoo!, anche se l'ordine dei risultati è diverso. Clusty è un meta-motore, che prende i risultati da tutti gli altri e li rimescola.
Per capire meglio le relazioni fra i vari motori di ricerca (chi prende cosa da chi ecc.), può esserti utile la versione interattiva della Search Engine Relationship Chart di Bruce Clay.
E poi, non credo che per google sia impossibile bloccare spam del genere.
Basterebbe un algoritmo che confrontasse se le pagine sono uguali. Sono d'accordo.
-
Volendo escludere l'ipotesi di complicità più o meno volontaria tra Google e questo tipo di network, è possibile che questo tipo di fenomeno spam risalti solo all'occhio allenato (e sgamato) di seo e sem, che rappresentano una minoranza dell'utenza internet.
Così come nel caso di BMW, fu il passaparola globale a costringere Google a prendere una posizione, anche questo caso, uscito dal ristretto campo del Forum GT riceverebbe uguale attenzione.
Se agli spam report si uniscono un'indagine documentata (magari partendo dalle analisi di Everfluxx e Giorgio) e il passaparola dei blogger, Google non potrà rimanere a guardare.
Vi segnalo un'indagine video-documentata fatta dal blogger Ian Kallen a proposito dello spam di AdWords e AdSense, un problema molto sentito oltreoceano. (E' offtopic, ne suggerisco la visione per rendere l'idea di come potrebbe essere un'indagine che susciterebbe reale interesse)
http://www.technologyevangelist.com/2006/08/more_on_how_google_p.html
Cordialmente,
Stuart
-
@Stuart said:
Volendo escludere l'ipotesi di complicità più o meno volontaria tra Google e questo tipo di network, è possibile che questo tipo di fenomeno spam risalti solo all'occhio allenato (e sgamato) di seo e sem, che rappresentano una minoranza dell'utenza internet. Sicuramente. Anche perché in prima pagina di solito (per fortuna!) li vedi solo per query non particolarmente competitive --e la SERP postata da Giorgiotave è un po' un caso-limite in questo senso.
Però il problema rimane: com'è possibile, secondo te, che Google non si accorga della presenza nel proprio indice di centinaia di migliaia di pagine con contenuti duplicati?
Con tutte le menate che ci facciamo sull'importanza dei contenuti originali e sulla duplicate content penalty... Poi vedi queste SERP, e ti cascano le braccia.
-
i soliti network dei SeoCom S.r.l.
i raters li valutano quotidianamente, come spam ovviamente. ma forse la query "palmari okprezzi" a G non interessa.
-
@Everfluxx said:
Però il problema rimane: com'è possibile, secondo te, che Google non si accorga della presenza nel proprio indice di centinaia di migliaia di pagine con contenuti duplicati?
Non è detto che gg abbia un algoritmo capace di vedere su così larga scala le somiglianze (o uguaglianze in questo caso).
Magari ha semplicemente in un filtro antiduplicazione, che fa rispettare la regola che è plagio solo se ci sono più di un tot (credo 250) di caratteri in successione uguali.
E quindi, può darsi che questi network abbiano capito l'algoritmo a furia di prove, e mettono solo 249 caratteri in successione uguali.Ma questa è solo una mia supposizione.
Perchè, benchè siano serp minori, non vuol dire che debbano essere trascurate.
Anzi, può anche darsi che alcuni network abbiano attaccato anche serp maggiori, ma a causa dell'alto numero di webmaster e seo professionisti, allora non si vede in modo così chiaro.
Perciò, il problema non c'è solo quando si vede.scusate per l'OT
@Everfluxx said:Per capire meglio le relazioni fra i vari motori di ricerca (chi prende cosa da chi ecc.), può esserti utile la versione interattiva della Search Engine Relationship Chart di Bruce Clay. MA è bellissima!!!!! senza scherzo...
Ma MSN prende dati da yahoo?? secondo il grafico si...
-
@Matteo said:
i soliti network dei SeoCom S.r.l.
i raters li valutano quotidianamente, come spam ovviamente. ma forse la query "palmari okprezzi" a G non interessa.
sicuramente google non ha alcun interesse a far valutare ai quality raters una query di questo tipo
ma cosa dobbiamo dedurre? forse che, algoritmicamente, Google è completamente incapace di riconoscere lo spam? si va solo a manina? possibile nel 2006? :bho:
-
@Matteo said:
i soliti network dei SeoCom S.r.l.
i raters li valutano quotidianamente, come spam ovviamente. ma forse la query "palmari okprezzi" a G non interessa.
Matteo hai ragione
Ma il punto è che qualsiasi chiave in cui compare una pagina di quel dominio è spam e quindi i raters non dovrebbero valutarli come spam, perchè non ci dovrebbero essere.
Anzi, se li bannassero di sana pianta, faciliterebbe il lavoro dei raters
No? Può essere che sbaglio.
-
Beh c'è da dire che la query in questione oltre a non interessare a G, è certamente "più attaccabile" dagli spam-engine: vuoi per il semplice aspetto della competitività, vuoi per un inevitabile (?) minore controllo da parte di G e dei suoi pauàrenge' su serp così secondarie.
Questione di risorse alla fine?Le segnalazioni naturalmente ci sono state, ma caspita: possibile che sia necessario segnalare gli spam-engine tra loro identici annidiati nella stessa serp uno ad uno?
Almeno in questo caso pare infatti che a niente/nessuno in G interessi o venga in mente di mettere in moto una certa logica: se viene segnalato uno spam-engine su una serp basterebbe effettuare una verifica abbastanza elementare sulla serp in questione al fine di ripulirla da risultati pressochè identici allo spam-engine segnalato per primo... insomma, un "semplice" match dei risultati.IF "A" in serp "xyz" è spam-engine AND in serp "xyz" ci sono anche "B, C, D ed E"; IF "B, C, D ed E" = "A", THEN SEGO "A, B, C, D ed E"!
-
ad ogni modo, a parte tutto, a me pare siamo andati un po' fuori tema.
voglio dire, che importanza ha la competitivitá di una keyword?
questi spam engine non hanno alcuna ragione di essere nell'indice di nessun motore di ricerca. neanche tra i risultati supplementari. neanche oltre la millesima posizione. i motori dovrebbero metterci sopra una bella croce, a tutto il dominio.
basta. fine. stop. punto.
-
@Matteo said:
ma forse la query "palmari okprezzi" a G non interessa.
Che cosa vuoi dire, Matteo?@HaccaH said:
Magari ha semplicemente in un filtro antiduplicazione, che fa rispettare la regola che è plagio solo se ci sono più di un tot (credo 250) di caratteri in successione uguali.
Credo che il filtro antiduplicazione non prenda in considerazione la lunghezza delle stringhe identiche, ma semmai la percentuale di contenuti identici sul totale del documento (anche questa è probabilmente una semplificazione). In ogni caso, i siti in questione differiscono solo per poche centinaia di byte/pagina.Ma MSN prende dati da yahoo?? secondo il grafico si...
Leggi la legenda in basso: freccia gialla = paid results. MSN Search (ora Windows Live Search) mostra gli annunci PPC di Yahoo! Search Marketing (ex-Overture).
-
@must said:
sicuramente google non ha alcun interesse a far valutare ai quality raters una query di questo tipo
ma cosa dobbiamo dedurre? forse che, algoritmicamente, Google è completamente incapace di riconoscere lo spam? si va solo a manina? possibile nel 2006? :bho:
Ciao,
sì è abbastanza incapace...
Io stesso (a scopo di "studio", non ricavo una lira visto che non ho inserito adsense) ho realizato uno spam engine che fa un mash up di varie fonti e si sta posizionando bene.
Di cosa ci meravigliamo? Quello agli occhi di Google non è spam. Anzi il recente cambiamento nelle serps ha solo fatto emergere nuovi siti spam che spesso sono solo stati realizzati in modo più furbo degli altri.L'unico modo che ha per sapere che è spam sono le segnalazioni degli utenti, quindi se un sito diventa particolarmente fastidioso non c'è altro da fare che continuare a segnalare e sperare...Mi sa che Google dovrà presto assumere nuova gente
-
Qualche osservazione sull'argomento:
Secondo me Google ha tutto l'interesse a combattere lo spam, e credo anzi stia facendo un buon lavoro, nonostante tutto.
Non e' vero che non ha bisogno di farlo per via della sua posizione dominante, infatti, a livello mondiale, il suo market share non e' poi cosi' alto, credo non arrivi neanche al 50%.
Le serp come quella in esempio sono l'eccezione, non la regola.
Nel 99%, o quasi, delle queries non c'e' molto spam (ma dipende molto da come si scelgono le queries, avete altri esempi di queries con un problema simile ? voglio dire una query come 'palmari okprezzi' non e' che viene chiesta centinaia di volte al giorno... e' una goccia tra i miliardi di query della "long tail" ).Sono d'accordo sul fatto che questo tipo di pagine dovrebbe essere abbastanza semplice da riconoscere ed eliminare alla fonte, ma a un esame piu' attento, non e' una cosa banale.
Quando hai un indice con svariati milardi di pagine, confrontarle tutte a due a due per trovare quelle 'quasi' identiche potrebbe richiedere mesi, non e' certo un processo che si puo' fare in giornata.
Infatti le pagine non sono "identiche" (perche' il nome del dominio, sempre diverso, e' presente nel testo) quindi un semplice fingerprint non basta.Inoltre, i domini sono sempre diversi e "freschi" (anche se Google li bannasse dopo due giorni, nel frattempo ne hanno creati altrettanti).
Per esempio, per quella serp, i domini dei risultati che vedo oggi sono diversi da quelli che vedevo ieri...Insomma e' facile a dirsi, ma ci vorra' ancora un po' di tempo (spero non molto) per liberarsi di questo tipo di spam...
-
@Everfluxx said:
Credo che il filtro antiduplicazione non prenda in considerazione la lunghezza delle stringhe identiche, ma semmai la percentuale di contenuti identici sul totale del documento (anche questa è probabilmente una semplificazione). In ogni caso, i siti in questione differiscono solo per poche centinaia di byte/pagina.
Mah, ad un esame piu' attento non sono pagine esattamente uguali.
Se per esempio prendi i risultati nella prima pagina della query incriminata,
ogni pagina delle spam-engine presenta diversi risultati (da 10 a 20).
Le pagine sembrano identiche a un occhio umano (stesso sfondo, stessa grafica), hanno molti contenuti in comune, ma anche contenuti leggermente diversi tra di loro...
Insomma questi di SeoCom srl hanno studiato per bene... ma non avranno vita lunga IMHO.
-
OK. Riassumendo, a mio avviso qui i problemi sono due, e neanche piccoli:
- Google si dimostra incapace di riconoscere automaticamente come sostanziali doppioni siti con un'alta percentuale di contenuti identici (confrontate i sorgenti HTML delle pagine: cambia giusto il dominio/nome del sito, contenuto nei tag <TITLE> e <META>, nell'attributo HREF dei link traccianti, e nell'intestazione "Cerca in <nomesito>!" sopra il box di ricerca; per il resto, i contenuti sono identici; la struttura del sito è identica; persino il template è identico, cribbio).
- Google si dimostra incapace di individuare automaticamente quando un nome a dominio .it viene cancellato e successivamente ri-registrato da un diverso intestatario (e ne "eredita" i back link).