Nuovo Brevetto Google: Contenuti duplicati.

must

sui contenuti duplicati, fa bene google a segarli dal proprio indice.
mettiamoci nei panni di un utente, non in quelli di un webmaster/seo/e-commerciante/antani: se cerchiamo "keyword" e troviamo 10 risultati che di fatto sono uguali? ho un vantaggio? tenderei ad escluderlo, se il motore ha capito la mia ricerca. ho uno svantaggio? uno sicuramente si: perdo tempo.

poi mi voglio anche mettere per un attimo (non di piú, che poi qualcuno pensa male) nei panni di un motore di ricerca. a parte l'offrire un servizio che non piace all'utente (il quale ha perso tempo a guardare 10 pagine con lo stesso contenuto), spreco anche risorse.

quindi, a mio avviso, bene fa google a voler rimuovere i contenuti duplicati. se poi ci riesce o meno, beh, é il suo lavoro. gli conviene, riuscirci.

sulla duplicazione degli URL, beh, é un bug di google. ma il bug di google é colpa di windows, il quale é nato senza sapere cosa significasse "network", é cresciuto con il capo che diceva "internet? non ha futuro" ed é ora l'accrocchio che tutti conosciamo. magari tra una decina d'anni windows sará migliore. o magari non esisterá piú.

hypertext

Il bug degli url di Google è colpa di Windows? Ne dubito fortemente.
Windows non fa differenza tra maiuscole e minuscole (non è case-sensitive), Linux sì (ciò che utilizza Google).

Se un utente linka www.dominio.ext/Pagina e www.dominio.ext/pagina è colpa sua: Google (poichè utilizza Linux e poichè non effettua controlli sulle maiuscole/minuscole) le vede come pagine differenti (con contenuti uguali).

Mi spiegheresti perchè è colpa di Windows?

ellegi

Mi spiegheresti perchè è colpa di Windows?

infatti non è colpa di windows, però metti che ti linkano in maniera sbagliata?
se google fa bene il suo dovere dovrebbe interpretare questo banale errore e accomunarli quando si è reso conto che il server è case insensitive.

rockymountains

@HyperText said:

Il bug degli url di Google è colpa di Windows? Ne dubito fortemente.

Io dico che è di windows, per questo motivo
http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html

3.2.3 URI Comparison
When comparing two URIs to decide if they match or not, a client SHOULD use a case-sensitive octet-by-octet comparison of the entire URIs, with these exceptions:

A port that is empty or not given is equivalent to the default
port for that URI-reference;
Comparisons of host names MUST be case-insensitive;
Comparisons of scheme names MUST be case-insensitive;
An empty abs_path is equivalent to an abs_path of "/".

Una soluzione lato Google ci sarebbe
Negli strumenti per i wm, accanto a "dominio preferito", l'impostazione che evita che http://dominio.it e http://www.dominio.it siano considerati cloni, dare la possibilità di specificare che le URL sono case insensitive, e magari pure di segnalare i documenti predefiniti (es. default.asp, index.htm)
In assenza di ciò è meglio stare attenti che tutti i backlink relativi a ogni pagina siano scritti esattamente nello stesso modo.

@Google Penalty -30 said:

I più penalizzati sono i siti di travel e di e-commerce che utilizzano le descrizioni in xml dei prodotti.

Intendi incorporare nel sito i catologhi prodotti dei negozi affiliati, come per esempio i cataloghi di tradedoubler?

hypertext

Non capisco cosa c'entri, RockyMountains.
Forse ho tradotto male... Me lo puoi spiegare tu?

Comunque poniamo che ci siano due pagine: www.dominio.ext/Pagina e www.dominio.ext/pagina.
Su Linux sono diverse, su Windows sono uguali.
Quindi è meglio avere hosting Windows, se teniamo conto solo di questo aspetto.

E' un bug del sistema di Google che dovrebbe effettuare un controllo, ma nè di Windows nè di Linux.

must

il bug é di google. la colpa é di windows.

chi viola la rfc? RockyMountains l'ha giá ben mostrato.

poi oh, se volete, possiamo anche dire che il bug sta nella rfc, tanto i manicomi sono stati chiusi...

rockymountains

Il protocollo URL non lo stabilisce né microsoft né google, bensì il W3C, che raccomanda che le URL siano case sensitive leggendo bene pure le eccezioni si capisce che:

http://www.dominio.it/pagina.htm
http://WWW.DOMINIO.IT/pagina.htm
http://www.dominio.it:80/pagina.htm

sono equivalenti, mentre

http://www.dominio.it/pagina.htm
http://www.dominio.it/PAGINA.HTM

sono diversi

Quindi se io client (browser o spider) chiedo a te server web 2 file diversi pagina.htm e PAGINA.HTM e tu mi restituisci sempre lo stesso, sei tu che sbagli.
Il protocollo è una convenzione, c'è poco da discutere una volta stabilito, è come una lingua, non posso inventarmi che con la parola CANE intendo un edificio, qualcuno ha definito con tale parola un animale a 4 zampe che abbia, e io così devo chiamarlo se voglio farmi intendere.

google.penalty.30

Grazie per le spiegazioni tecniche.

In merito al contenuto duplicato ritengo che must abbia ragione, faccio il giornalista e credo che sia giunta l'ora di riempire di contenuti seri i nostri siti...

chi vuol copiare provasse almeno a fare i riassunti

Scherzi a parte, bisogna anche dire che i contenti costano ingenti risorse economiche...

A must (e chiaramente non solo a lui) volevo invece chiedere un parere su questa serp :

http://www.google.it/search?num=100&hl=it&rls=GGLJ%2CGGLJ%3A2006-34%2CGGLJ%3Ait&q=Buenos+aires&btnG=Cerca&meta=lr%3D

Sono almeno 50 i link verso wikipedia .

Da almeno tre settimane questa è la situazione su migliaia di kw.

Vi chiedo: Moriremo tutti wikipediani ?

Il problema dei cataloghi travel per i siti affiliati, si pone per chi ha pagine in xml con contenuti provenienti dai vari Venere, Booking e così via...

Nel mondo sono migliaia i siti che utilizzano questa tecnica, adesso la stragrande maggioranza delle pagine è nei supplementari.....

server windows

In passato non è mai successo nulla del genere.

Sarebbe interessante chiedersi sul perchè il problema si ponga proprio adesso.

Qualcuno propone soluzioni lato server windows ?
GG ha fatto anche un altro scherzetto a zio Bill, , praticamente tutti i siti realizzati con Frontpage sono finiti nei supplementari.:?

E nel mondo, Frontpage lo usano in milioni di utenti...

Io intravedo venti di guerra....

must

@Google Penalty -30 said:

In merito al contenuto duplicato ritengo che must abbia ragione, faccio il giornalista e credo che sia giunta l'ora di riempire di contenuti seri i nostri siti...

chi vuol copiare provasse almeno a fare i riassunti

qualcuno diceva "copiare da uno é plagio, copiare da molti é ricerca".

Vi chiedo: Moriremo tutti wikipediani ?

wikipedia é talmente presente in tante serp che forse sarebbe il caso che google separasse i risultati di wikipedia dal resto delle serp... ad oggi, certamente, é un problema. ma piú grosso potrebbe essere domani. infatti oggi wikipedia lo conoscono soprattutto i poweruser, ma domani che anche la casalinga andrá direttamente su wikipedia ad informarsi su X argomento, ritrovarsi wikipedia in ogni serp potrebbe essere un difetto. per google.

Il problema dei cataloghi travel per i siti affiliati, si pone per chi ha pagine in xml con contenuti provenienti dai vari Venere, Booking e così via...

Nel mondo sono migliaia i siti che utilizzano questa tecnica, adesso la stragrande maggioranza delle pagine è nei supplementari.....

e non lo trovi giusto? io si.

Qualcuno propone soluzioni lato server windows ?

"eliminare i server windows" é una risposta valida?

GG ha fatto anche un altro scherzetto a zio Bill, , praticamente tutti i siti realizzati con Frontpage sono finiti nei supplementari.:?

certo che se li penalizzava giá dallo scorso millennio io avrei apprezzato di piú...

E nel mondo, Frontpage lo usano in milioni di utenti...

e la prima pagina di una serp ha posto solo per 10 risultati :41:

bondo

E integrare questo ?

http://www.giuseppeliguori.it/index.php/2007/01/05/polygen-per-il-web-generatore-di-testo-casuale.htm