• User

    Nuovo Brevetto Google: Contenuti duplicati.

    Salve a tutti,

    Il problema dei contenuti duplicati che sta provocano notevolissimi problemi a migliaia di webmaster viene affrontato quotidianamente con centinaia di Post su WMW.

    Le lamentele dei siti con centinaia di pagine nei supplementari sono infinite.

    I più penalizzati sono i siti di travel e di e-commerce che utilizzano le descrizioni in xml dei prodotti.

    Problemi anche per coloro che utilizzano i server windows, in molti si sono ritrovati un file indicizzato tre volte

    www.dominio/hotel/ancona.htm
    www.dominio/Hotel/ancona.htm
    www.dominio/HOTEL/ancona.htm

    Quindi problemi con i contenuti duplicati e problemi con url duplicati

    A proposito dei metodi utilizzati da GG per individuare i contenuti duplicati Vi segnalo questo post:

    Methods and apparatus for estimating similarity

    Beware of duplicate content! A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.

    Agli esperti del forum il compito di interpretare e dare consigli. :mmm:


  • Super User

    sui contenuti duplicati, fa bene google a segarli dal proprio indice.
    mettiamoci nei panni di un utente, non in quelli di un webmaster/seo/e-commerciante/antani: se cerchiamo "keyword" e troviamo 10 risultati che di fatto sono uguali? ho un vantaggio? tenderei ad escluderlo, se il motore ha capito la mia ricerca. ho uno svantaggio? uno sicuramente si: perdo tempo.

    poi mi voglio anche mettere per un attimo (non di piú, che poi qualcuno pensa male) nei panni di un motore di ricerca. a parte l'offrire un servizio che non piace all'utente (il quale ha perso tempo a guardare 10 pagine con lo stesso contenuto), spreco anche risorse.

    quindi, a mio avviso, bene fa google a voler rimuovere i contenuti duplicati. se poi ci riesce o meno, beh, é il suo lavoro. gli conviene, riuscirci.

    sulla duplicazione degli URL, beh, é un bug di google. ma il bug di google é colpa di windows, il quale é nato senza sapere cosa significasse "network", é cresciuto con il capo che diceva "internet? non ha futuro" ed é ora l'accrocchio che tutti conosciamo. magari tra una decina d'anni windows sará migliore. o magari non esisterá piú.


  • User Attivo

    Il bug degli url di Google è colpa di Windows? Ne dubito fortemente.
    Windows non fa differenza tra maiuscole e minuscole (non è case-sensitive), Linux sì (ciò che utilizza Google).

    Se un utente linka www.dominio.ext/Pagina e www.dominio.ext/pagina è colpa sua: Google (poichè utilizza Linux e poichè non effettua controlli sulle maiuscole/minuscole) le vede come pagine differenti (con contenuti uguali).

    Mi spiegheresti perchè è colpa di Windows?


  • User Attivo

    Mi spiegheresti perchè è colpa di Windows?

    infatti non è colpa di windows, però metti che ti linkano in maniera sbagliata?
    se google fa bene il suo dovere dovrebbe interpretare questo banale errore e accomunarli quando si è reso conto che il server è case insensitive.


  • User Attivo

    @HyperText said:

    Il bug degli url di Google è colpa di Windows? Ne dubito fortemente.

    Io dico che è di windows, per questo motivo
    http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html

    3.2.3 URI Comparison
    When comparing two URIs to decide if they match or not, a client SHOULD use a case-sensitive octet-by-octet comparison of the entire URIs, with these exceptions:

    • A port that is empty or not given is equivalent to the default
      port for that URI-reference;
    • Comparisons of host names MUST be case-insensitive;
    • Comparisons of scheme names MUST be case-insensitive;
    • An empty abs_path is equivalent to an abs_path of "/".

    Una soluzione lato Google ci sarebbe
    Negli strumenti per i wm, accanto a "dominio preferito", l'impostazione che evita che http://dominio.it e http://www.dominio.it siano considerati cloni, dare la possibilità di specificare che le URL sono case insensitive, e magari pure di segnalare i documenti predefiniti (es. default.asp, index.htm)
    In assenza di ciò è meglio stare attenti che tutti i backlink relativi a ogni pagina siano scritti esattamente nello stesso modo.

    @Google Penalty -30 said:

    I più penalizzati sono i siti di travel e di e-commerce che utilizzano le descrizioni in xml dei prodotti.

    Intendi incorporare nel sito i catologhi prodotti dei negozi affiliati, come per esempio i cataloghi di tradedoubler?


  • User Attivo

    Non capisco cosa c'entri, RockyMountains.
    Forse ho tradotto male... Me lo puoi spiegare tu?

    Comunque poniamo che ci siano due pagine: www.dominio.ext/Pagina e www.dominio.ext/pagina.
    Su Linux sono diverse, su Windows sono uguali.
    Quindi è meglio avere hosting Windows, se teniamo conto solo di questo aspetto.

    E' un bug del sistema di Google che dovrebbe effettuare un controllo, ma nè di Windows nè di Linux.


  • Super User

    il bug é di google. la colpa é di windows.

    chi viola la rfc? RockyMountains l'ha giá ben mostrato.

    poi oh, se volete, possiamo anche dire che il bug sta nella rfc, tanto i manicomi sono stati chiusi... 🙂


  • User Attivo

    Il protocollo URL non lo stabilisce né microsoft né google, bensì il W3C, che raccomanda che le URL siano case sensitive leggendo bene pure le eccezioni si capisce che:

    http://www.dominio.it/pagina.htm
    http://WWW.DOMINIO.IT/pagina.htm
    http://www.dominio.it:80/pagina.htm

    sono equivalenti, mentre

    http://www.dominio.it/pagina.htm
    http://www.dominio.it/PAGINA.HTM

    sono diversi

    Quindi se io client (browser o spider) chiedo a te server web 2 file diversi pagina.htm e PAGINA.HTM e tu mi restituisci sempre lo stesso, sei tu che sbagli.
    Il protocollo è una convenzione, c'è poco da discutere una volta stabilito, è come una lingua, non posso inventarmi che con la parola CANE intendo un edificio, qualcuno ha definito con tale parola un animale a 4 zampe che abbia, e io così devo chiamarlo se voglio farmi intendere.


  • User

    Grazie per le spiegazioni tecniche. 😉


    In merito al contenuto duplicato ritengo che must abbia ragione, faccio il giornalista e credo che sia giunta l'ora di riempire di contenuti seri i nostri siti...

    :fumato: chi vuol copiare provasse almeno a fare i riassunti :fumato:

    Scherzi a parte, bisogna anche dire che i contenti costano ingenti risorse economiche...

    A must (e chiaramente non solo a lui) volevo invece chiedere un parere su questa serp :

    http://www.google.it/search?num=100&hl=it&rls=GGLJ%2CGGLJ%3A2006-34%2CGGLJ%3Ait&q=Buenos+aires&btnG=Cerca&meta=lr%3D

    Sono almeno 50 i link verso wikipedia . :mmm:

    Da almeno tre settimane questa è la situazione su migliaia di kw.

    Vi chiedo: Moriremo tutti wikipediani ? 😄


    Il problema dei cataloghi travel per i siti affiliati, si pone per chi ha pagine in xml con contenuti provenienti dai vari Venere, Booking e così via...

    Nel mondo sono migliaia i siti che utilizzano questa tecnica, adesso la stragrande maggioranza delle pagine è nei supplementari.....


    server windows

    In passato non è mai successo nulla del genere.

    Sarebbe interessante chiedersi sul perchè il problema si ponga proprio adesso.

    Qualcuno propone soluzioni lato server windows ?
    GG ha fatto anche un altro scherzetto a zio Bill, 😮 , praticamente tutti i siti realizzati con Frontpage sono finiti nei supplementari.:?

    E nel mondo, Frontpage lo usano in milioni di utenti...

    Io intravedo venti di guerra....


  • Super User

    @Google Penalty -30 said:

    In merito al contenuto duplicato ritengo che must abbia ragione, faccio il giornalista e credo che sia giunta l'ora di riempire di contenuti seri i nostri siti...

    :fumato: chi vuol copiare provasse almeno a fare i riassunti :fumato:

    qualcuno diceva "copiare da uno é plagio, copiare da molti é ricerca".

    Vi chiedo: Moriremo tutti wikipediani ? 😄

    wikipedia é talmente presente in tante serp che forse sarebbe il caso che google separasse i risultati di wikipedia dal resto delle serp... ad oggi, certamente, é un problema. ma piú grosso potrebbe essere domani. infatti oggi wikipedia lo conoscono soprattutto i poweruser, ma domani che anche la casalinga andrá direttamente su wikipedia ad informarsi su X argomento, ritrovarsi wikipedia in ogni serp potrebbe essere un difetto. per google.

    Il problema dei cataloghi travel per i siti affiliati, si pone per chi ha pagine in xml con contenuti provenienti dai vari Venere, Booking e così via...

    Nel mondo sono migliaia i siti che utilizzano questa tecnica, adesso la stragrande maggioranza delle pagine è nei supplementari.....

    e non lo trovi giusto? io si.

    Qualcuno propone soluzioni lato server windows ?

    "eliminare i server windows" é una risposta valida? 😄

    GG ha fatto anche un altro scherzetto a zio Bill, 😮 , praticamente tutti i siti realizzati con Frontpage sono finiti nei supplementari.:?

    certo che se li penalizzava giá dallo scorso millennio io avrei apprezzato di piú...

    E nel mondo, Frontpage lo usano in milioni di utenti...

    e la prima pagina di una serp ha posto solo per 10 risultati :41:


  • User