• Super User

    Google bandisce [sic!] i siti che usano dati ODP (dmoz)

    Thread su WebmasterWorld: [url=http://www.webmasterworld.com/forum30/33761.htm]google Is Banning Sites That Use Open Directory (DMOZ) Data 😮

    There is a new study that says Google is ?massively? banning sites that use any DMOZ data. I know many people would say ?Good! Who needs another copy of some information that you can already get at the Open Directory web site?, but it seems to me that there are some fundamental issues of fairness and deception here.
    Sinceramente spero che non si tratti di un vero e proprio "banning", ma semmai di una penalizzazione (una variante della [url=http://www.google.com/search?q=%22duplicate+content+penalty%22]DCP?). In ogni caso, se avessi una directory che usa dati ODP, non mi sentirei troppo tranquillo.


  • Super User

    Mi associo al commento di un utente (il che rispecchia un po' le tue speranze mi sembra):

    Google aren't running a vendetta against DMOZ clones, they're just trying to protect the integrity of their index.
    That means (1) filtering substantially duplicated pages from their index, and (2) identifying and discounting duplicated links, so that a single link from DMOZ doesn't become wildly overvalued.
    In buona sostanza : filtraggio contenuti duplicati e svalutazione link duplicati... in realtà non ho mai realmente capito la psicologia che spinge un webmaster ad installarsi un clone di Dmoz sul sito.

    Tu ne fai uso? Domanda sincera, non provocatoria.

    ps: L'80% del resto della discussione si WMW è simile ad ogni discussione Dmoz-related: degenera dopo i primi 5 post 😉

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    in realtà non ho mai realmente capito la psicologia che spinge un webmaster ad installarsi un clone di Dmoz sul sito.

    Qualche anno fa molti grandi portali utilizzavano il clone di Dmoz per far apparire il loro sito come pieno di contenuti e di link. E secondo me non era male come idea, anche se oggi ci sono altri metodi per far apparire un sito pieno di contenuti (RRS ecc) anche se in realtà non è così.


  • Super User

    A legger meglio, invece, sembra trattarsi di un ban vero e proprio:
    @Altair said:

    Banned means banned, delisted, blacklisted, censored, or "removed from the index". A site: search returns zero or one page. Sometimes the site: search returned a very small number of pages (like 29 in a 600,000 page clone) but that was not counted as "banned". Sometimes the site: search returned only links, where the search engine had not actually indexed the page but only indexed a link on someone else's page. That was not counted as "banned" either. If you count the sites that were obviously severely penalized but not actually totally delisted, the numbers would be substantially higher.

    Dai dettagli su WmW non è chiarissimo se sia la struttura del sito o altro a triggerare il ban, ma sembra trattarsi dell'effetto di un qualche filtro antiduplicazione (anch'io cerco sempre una spiegazione "algoritmica" prima di parlare di intervento manuale e mirato).

    Nessuno dei miei siti usa dati ODP, perciò la cosa non mi tocca direttamente, però sono ugualmente un po' perplesso.

    La cosa che faccio fatica a capire è come mai Google se la stia prendendo coi cloni di dmoz, quando nell'indice di Google ci sono milioni di spamengine che replicano le SERP di Google stesso solo per infarcirle ad nauseam di sponsored links YSM (il principale competitor di Google!). Eppure dovrebbe essere piuttosto facile, per Google, riconoscere i cloni di sé stesso. O no?


  • Super User

    Forse è più facile, vista la maggiore staticità e alcuni dettagli inconfondibili, rilevare cloni di Dmoz che non estratti di Serp's (alcuni spamengine potrebbero usare trick di programmazione per rendersi persin meno rilevabili).
    O forse tanto accanimento (se proprio dovessimo escludere a priori una normale penalty algoritmica per duplicazione) è dovuto al fatto che nelle serp appaiono sia le pagine interne di Dmoz che quelle della dir di Google , e i cloni sono una potenziale perdita di click per i legittimi titolari dei dati della odp.

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    i cloni sono una potenziale perdita di click per i legittimi titolari dei dati della odp.
    Sono una perdita di click **per google, **vuoi dire (anche perché ODP non s'è mai preoccupata del fatto di avere dei "cloni", anzi). 😉
    BTW, ci sono sempre stati gli [url=http://www.google.it/search?hl=it&cat=gwd%2FTop&q=hosting]annunci AdWords sulla google Directory? (Si vede che la uso spesso, eh?) 😄

    Lo so che "a pensar male si fa peccato"... Però...


  • Community Manager

    Mi sembra sia una cosa recente questa degli Adsense nella directory di Google.

    Penalizzare un sito che usa contenuti di ODP è facilissimo, basta andare nella directory di ODP che c'è anche la lista di tutti i siti.

    Contenuti duplicati?

    [url=http://www.google.it/search?hl=it&c2coff=1&q=%22questa+guida+e%27+realizzata+da+Giorgio+Taverniti%22+&btnG=Cerca&meta=]questa guida è stata realizzata da Giorgio Taverniti

    Diciamo che per ODP c'è un trattamento particolare, secondo me non legato alle serp di Google, ma al voler contare meno HUB duplicati.

    Praticamente (letto da un post di Beke) Google ha voluto diminuire gli HUB duplicati.

    :ciauz:


  • Super User

    @Giorgiotave said:

    Mi sembra sia una cosa recente questa degli Adsense nella directory di Google.
    Grazie. Qualcun altro conferma che si tratta di una novità?

    Penalizzare un sito che usa contenuti di ODP è facilissimo, basta andare nella directory di ODP che c'è anche la lista di tutti i siti.
    Infatti l'indagine citata nel [url=http://www.webmasterworld.com/forum30/33761.htm]thread su WebmasterWorld è stata effettuata proprio sui siti che hanno un listing in http://www.dmoz.org/Computers/Internet/Searching/Directories/Open_Directory_Project/Sites_Using_ODP_Data/full-index.html

    Diciamo che per ODP c'è un trattamento particolare, secondo me non legato alle serp di Google, ma al voler contare meno HUB duplicati.

    Praticamente (letto da un post di Beke) Google ha voluto diminuire gli HUB duplicati.
    Non ho capito nulla. Potresti rifrasare?


  • Community Manager

    Certo, mi scuso se non hai capito.

    Ti posto direttamente l'articolo di Beke, il discusso articolo di Beke 😄

    http://www.posizionamento-web.com/trustrank-pagine-seme.asp


  • Super User

    Ah! Ho capito:
    @Beke said:

    Nei 25.000 siti selezionati è stata infatti immediatamente rilevata una massiccia presenza di cloni della intera directory DMOZ realizzati al solo scopo di simulare dei contenuti di qualità o di ottenere un elevato punteggio HUB.


  • Super User

    😮 Io ho creato mesi fa un dominio di 3° liv sul primo link in firma in cui ho inserito uno script che clona Dmoz.

    Dite che sarebbe conveniente che cancelli il dominio o cmq cambi il contenuto?

    Leggendo il 3d ho moooolta paura di penalizzare cosi anche il dominio.tld e non solo quello di 3° livello.

    Grazie per ogni eventuale risposta 😉
    :ciauz:


  • Super User

    Lascio rispondere Stuart, ché la domanda è spinosa e non voglio avere responsabilità. 😄


  • Super User

    @ArkaneFactors said:

    Lascio rispondere Stuart, ché la domanda è spinosa e non voglio avere responsabilità. 😄
    E' arrivato Ponzio Pilato! 😄
    Tanto se dico una str.... intervieni, ne sono certo 😉

    Comunque, spulciando i vari forum, le opinioni sono suddivise tra gente che ha visto sparire dalle serp + azzeramento del PR solo la parte che conteneva il clone di Dmoz, lasciato intatto il resto del sito e altri che invece hanno lamentato il ban dell'intero sito.
    Magari questi ultimi inserivano il clone di Dmoz già in home page (insieme ad altri contenuti) e quindi il ban totale è stato inevitabile.
    Onestamente non lo so, e fino all'altro giorno non credevo che ci fossero così tante persone che installavano i dati di dmoz sul proprio sito.

    Per i domini di terzo livello, per il principio dei DNS account.nomesito.com e nomesito.com sono due siti diversi. Il ban di uno non comporta il ban dell'altro.

    Tuttavia, se il dominio principale (nomesito.com) viene bannato, seguono a ruota tutti i subdomain.

    Se invece un subdomain viene bannato non è detto che la stessa sorte tocchi al dominio principale, a meno che Google non rilevi unico proprietario (esempio, se un sottodominio di [nome di un famoso free hoster] viene bannato, non viene certo bannato anche [nome di un famoso free hoster].

    Mi sbilancio? Secondo me anche se bannassero il clone di dmoz che hai sul terzo livello, il dominio principale non correrebbe pericoli (sempre che non faccia anch'esso spam). Anche perchè potrebbe non essere un vero e proprio ban, ma un pesantissimo e mirato filtraggio.

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    @ArkaneFactors said:
    Lascio rispondere Stuart, ché la domanda è spinosa e non voglio avere responsabilità. 😄
    E' arrivato Ponzio Pilato! 😄
    Tanto se dico una str.... intervieni, ne sono certo 😉
    😄 😄 😄 T'ho smollato la "patata bollente" non solo e non tanto per mia codardia, ma perché oggettivamente tendi ad essere più ponderato nei tuoi giudizi, e l'hai dimostrato anche con questa risposta: equilibrata, argomentata, inappuntabile come sempre. 😉


  • Super User

    Grazie per la delucidazione.
    Premetto che:
    1)parlo principalmente del mio sito visto che questa penalizzazione/filtraggio/ban mi tocca personalmente ma ne viene automaticamente che la discussione/consigli sono anche per tutti gli altri siti oltre il mio.
    2) il dominio.tld è mio con tutti i domini di 3° livello indi anche quello con la DMOZ clonata;
    3) su miodominio.tld cè solo un link testuale in home al odp.miodominio.tld;

    Stando al tuo ultimo post Stuart potrei anche pensare:

    1. cancellare il dominio di 3° livello (è segnalato su DMOZ sotto il ramo italiano di chi utilizza la dir - tempo fa pensavo che un link simile avrebbe portato giovamenti in fatto di posizionamento/link popularity - a questo punto penso che il gioco non vale la candela)
    2. mantenere il dominio di 3° livello e riutilizzarlo per altri contenuti (anche se il nome del dominio non è molto carino odp.miodominio.tld :D)
    3. potrei pensare di filtrare il passaggio degli spider utilizzando il robots.txt e mantenere la dir così com'è (penso che non evvenga un controllo manuale di tutti i siti che utilizzano i contenuti di DMOZ ma bensì immagino ad un controllo automatico attraverso i bot ergo editare propriamente il robots.txt)

    Io sono più favorevole alla 2) visto che alla fin fine non ho trovato molto beneficio nell' utilizzo della dir.

    Che dite?

    :ciauz:


  • Super User

    e allora questo???? xxx.comuni-italiani.it/ ..... chè è posizionato alla grande con pagine completamente clonate da dmoz.... 😮


  • Super User

    @alexs2k said:

    e allora questo???? xxx.comuni-italiani.it/ ..... chè è posizionato alla grande con pagine completamente clonate da dmoz.... 😮

    Ciao alexs2k,
    hai analizzato bene i contenuti del sito che hai indicato ?
    per te è solo un sito che utilizza i dati dell'ODP ?
    Ha suoi contenuti originali ?


  • Super User

    @KING_Hack said:

    1. cancellare il dominio di 3° livello (è segnalato su DMOZ sotto il ramo italiano di chi utilizza la dir - tempo fa pensavo che un link simile avrebbe portato giovamenti in fatto di posizionamento/link popularity - a questo punto penso che il gioco non vale la candela)
      Uhm...sai che potrebbe anche essere (condizionale d'obbligo) che Google usi quella categoria di Dmoz per partire con le sue spedizioni punitive..?

    @KING_Hack said:

    1. mantenere il dominio di 3° livello e riutilizzarlo per altri contenuti (anche se il nome del dominio non è molto carino odp.miodominio.tld :D)
      Il nome è in effetti un po' vincolante...
      perchè non approfitti della presenza in dmoz per installarci sopra una tua directory? Devi solo poi chiedere ad un editor di modificare la tue entry (si può fare vero? Io con dmoz ho un rapporto di amore-odio-beata ignoranza)

    @KING_Hack said:

    1. potrei pensare di filtrare il passaggio degli spider utilizzando il robots.txt e mantenere la dir così com'è (penso che non evvenga un controllo manuale di tutti i siti che utilizzano i contenuti di DMOZ ma bensì immagino ad un controllo automatico attraverso i bot ergo editare propriamente il robots.txt)
      Puoi farlo ed evitare il filtraggio (cioè, ti filtri da solo, se blocchi gli spider non esci nelle serp, ed è ciò che vuole Google), ma poi a che ti giova avere una risorsa su un terzodominio, latente, che non spinge se stessa e neanche il dominio principale?

    Cordialmente,
    Stuart


  • Super User

    @gero said:

    Ciao alexs2k,
    hai analizzato bene i contenuti del sito che hai indicato ?
    per te è solo un sito che utilizza i dati dell'ODP ?
    Ha suoi contenuti originali ?

    ciao Gero...

    ...si infatti io mi riferivo ad alcune pagine ben precise...

    ti riporto un esempio xxx.comuni-italiani.it/037/006/siti/affari_e_economia.html (pagine come queste presentano solo dato odp + pubblicità)

    se mi sbaglio io ti prego di dirmelo 😞

    ciao :ciauz:


  • Super User

    @Stuart said:

    Uhm...sai che potrebbe anche essere (condizionale d'obbligo) che Google usi quella categoria di Dmoz per partire con le sue spedizioni punitive..?
    Ho tolto il link dalla home del miodominio.tld e quanto prima tolgo la dir di DMOZ e la sostituisco (vedi tuo consiglio di seguito :2:

    @Stuart said:

    Il nome è in effetti un po' vincolante...
    perchè non approfitti della presenza in dmoz per installarci sopra una tua directory? Devi solo poi chiedere ad un editor di modificare la tue entry (si può fare vero? Io con dmoz ho un rapporto di amore-odio-beata ignoranza)

    Bella idea 😄 (mi sembra si possa fare - un letta alle linee guida non mi costa nulla :2:

    @Stuart said:

    Puoi farlo ed evitare il filtraggio (cioè, ti filtri da solo, se blocchi gli spider non esci nelle serp, ed è ciò che vuole Google), ma poi a che ti giova avere una risorsa su un terzodominio, latente, che non spinge se stessa e neanche il dominio principale?

    Ehm ehm ... hai ragione: ho detto una cavolata :lol:

    Grazie 1000 dei chiarimenti.

    @Stuart said:

    Cordialmente,
    Stuart
    :ciauz: