Definizione dei brevetti di Google al 31.03.05

beke

causing the profile of growth in anchor words/bigrams/phrases to likely be relatively spiky?. Non lho capita!

più o meno direi...

causando un profilo di crescita delle parole/bigrammi/frasi nei link facilmente assimilabile a un picco.

Credo dica che i network "artificiali" di link si possono riconoscere perchè un sacco di link con gli stessi testi o quasi arrivano tutti insieme o quasi allo stesso documento.

I famosi picchi di varia natura che fanno tutti scattare dei campanelli d'allarme.

Forse i bigrams sono le frasi di due termini

mamilu

Cari Beke e Reale, siete bravissimi!
Non sembra ma vi leggiamo tutti con attenzione.

Credo che stiamo...(state) sviluppando un ottimo documento

and4linux

@beke said:

causing the profile of growth in anchor words/bigrams/phrases to likely be relatively spiky?. Non lho capita!

Forse i bigrams sono le frasi di due termini

I bigrams letteralmente sono le parole di due lettere

beke

Ah... e perchè vengono distinti dall'insieme generico delle "parole", lo sai?

and4linux

@beke said:

Ah... e perchè vengono distinti dall'insieme generico delle "parole", lo sai?

no, sto facendo ricerche

giorgiotave

Ragazzi appena si collega qualche mio cugino chiedo per il termine.

Intano ho fatto copia incolla si alcune frasi importanti delle vostre traduzioni.
Per parlare possiamo aprire dei topic, come avevamo previsto, ma dobbiamo inserire la traduzione completa di quella parte

Ecco la lista, scusate il copia incolla confuso

Riassunto dei brevetti

-Anzianità dei link
-Inserire link poco alla volta
-Pagine aggiornate (non html e php) diverse da pagine non aggiornate. Grandi quantità di contenuti aggiornati trattati diversamente da piccole
-Quante pagine nuove aggiunge un sito in un determinato periodo
-Salva una lista di termini nuovi
-il motore genera una similarity hash e puo' usarlo sia per vedere se il documento cambia sia per scovare copie di documenti.
-Parla di come dare un rank in base alle query e prima specifica che puo' farlo in base alle scelte degli utenti, poi
-In pratica puo' dare un maggiore peso ai siti che sono associati con le notizie/termini piu' recenti, le super news in pratica
-In pratica dice che un sito che compare per piu' key discordanti puo' (non necessariamente pero') essere considerato come un segnale che il documento e' spam, in questo caso gli verra' assegnato un punteggio relativamente basso
-Parla a lungo di come anche la data dei link (quanti nuovi link ogni tot, quanti link spariscono) influisce
-In particolare li dice che analizzando se i backlink calano od aumentano puo' derivare se un documento e' "fresco" oppure statico.. in pratica se continuiamo ad avere bl ci assegna un rank piu' alto, se ne perdiamo piu' basso
-link da siti istituzionali o governativi valgono molto
-link contanto di più se vengono da siti aggiornati frequentemente
-google monitora quando inseriamo i link
-un buon link puo' rimanere invariato quando un documento viene updatato se esso e' ancora buono e rilevante
-cambiamento del testo dell'ancora indica un cambiamento nel documento
-se il contenuto di un documento cambia in maniera cosi' significativa dal testo associato all'ancora, vuol dire che il dominio su cui sta il documento puo' avere cambiato significativamente o completamente i suoi contenuti (basti pensare a quando un dominio muore e viene ricomprato da altri) e visto che il testo di href di un bl viene considerato come parte integrante del documento a cui punta, il dominio sale nelle serp per ricerche che nn sono piu' on topic e questo e' da evitare.
-inception data = data d'inizio, probabilmente la prima volta che il crwaler individua il documento
-Content Updates/Changes
U=f(UF, UA),

dove U= score assegnato al documento in funzione di:
UF=frequenza di aggiornamento dei contenuti
UA=quantita' dei contenuti aggiornati

-google può anche non monitorare tutta la pagina, ma un insieme di termini per vedere se la pagina subisce grossi cambiamenti.
-per alcune query possono essere favoriti documenti che non sono stati recentemente aggiornati. lo score che gg asegna al documento e' determinato sulla differenza dalla media delle date dei cambiamenti del documento. in altre parole, gg determina una data in cui il contenuto di ognuno dei documenti e' stato cambiato, poi una data media dei cambiamenti e modifica il punteggio dei documenti (sia positivamente che negativamente) in base alla differenza tra le 2.

aumento di risultati per query simili può essere considerato come news
i documenti che rimangono uguali nel tempo ma con dati diversi possono essere monitorati diversamente.
per alcune query google può premiare i documenti più freschi, quindi si affida agli utenti che scelgono nelle serp e associa un punteggio diverso al documento stesso
per altre query un documento vecchio può essere interessante e google di affida agli utenti.
google può assegnare un punteggio in base anche al tempo che un utente spende stando su un documento
-Chiunque cerchi di ingannare il mdr spesso usando ?throwaway? (letteralmente volantini, depliant, foglietto pubblicitario) o domini doorway e cercano di ottenere piu? traffico possibile prima di essere beccati.

(?.aho ma sta frase nn po esse cosi??.manca un pezzo!!!o lho tradotta male? Confused dategli un?occhiata che sembra molto importante).
-Comunque, la data quando un dominio scadra? in futuro puo? essere usata come fattore per predire la lagettimita? di un dominio, e quindi dei documenti associati ad esso.

controllo il dns
alter info associate ai name server per controllare che siti ospita
google monitora i documenti e i miglioramenti di essi nelle serp per controllare se è un documento attuale o spam
controlla sia la quantità che la velocità di salita nelle serp
commerciale è trattato diversamente perchè c'è più probabilità di spam allora lui controlla la quantità e velocità di salita.
il traffico associato ad un documento se diminuisce può star a significare che il documento è vecchio, quindi scende
traffico medio per i documenti, poi google può creare schemi di traffico. Questo per controllare anche periodi estivi e weekends
traffico pubblicitario controllando il CTR (adsense per vedere le pagine buone)
In sintesi, Google può generare ( o alterare ) un punteggio associato ad un documento, basandosi, almeno in parte ad informazioni relative al traffico associato al documento nel tempo.
Come ulteriore misura per distinguere un documento relativo ad un fenomeno di attualità da un documento spam, Google può considerare la menzione del documento in articoli di news, gruppi di discussione etc. ipotizzando che i documenti spam non saranno menzionati, per esempio, nelle news.
segnalibri e preferiti, google toolbar?cookie?
questo per controllare l'interesse del documento da parte dell'utente
google controlla l'ancor test per vedere lo spam, quindi non usare ancor test uguali
-Google può considerare significative cadute nel posizionamento dei documenti come un'indicazione che il documento è "non apprezzato" o datato
-In sintesi, Google può generare ( o alterare ) un punteggio associato con un documento basato, almeno in parte, su informazioni relative ai precedenti posizionamenti del documento stesso.

Credo dica che i network "artificiali" di link si possono riconoscere perchè un sacco di link con gli stessi testi o quasi arrivano tutti insieme o quasi allo stesso documento.

beke

[0122] - [125] Linkage of Independent Peers

Inizio...

beke

[0122] Linkage of Independent Peers

[0122] Collegamento di siti/nodi indipendenti

[0123] According to an implementation consistent with the principles of the invention, information regarding linkage of independent peers (e.g., unrelated documents) may be used to generate (or alter) a score associated with a document.

[0123] In accordo ad una implementazione coerente con i principi dell'invenzione, le informazioni riguardanti il collegamento di nodi/siti indipendenti (per esempio, documenti non simili) può essere usato per generare (o alterare) un punteggio associato ad un documento.

[0124] A sudden growth in the number of apparently independent peers, incoming and/or outgoing, with a large number of links to individual documents may indicate a potentially synthetic web graph, which is an indicator of an attempt to spam. This indication may be strengthened if the growth corresponds to anchor text that is unusually coherent or discordant. This information can be used to demote the impact of such links, when used with a link-based scoring technique, either as a binary decision item (e.g., demote the score by a fixed amount) or a multiplicative factor.

[0124] Una sviluppo improvviso nel numero di nodi/siti apparentemente indipendenti, ricevuti e/o uscenti, con molti collegamenti a singoli documenti può indicare un network potenzialmente sintetico, che può indicare un tentativo di Spam. Questa indicazione può essere rinforzata se i testi dei link sono insolitamente coerenti o divergenti. Queste informazioni possono essere usate per degradare l'effetto di tali link, quando usate con una tecnica di punteggio basata sui link, oppure come una decisione binaria(per esempio, degradare il punteggio di un dato valore) o un fattore moltiplicativo.

[0125] In summary, search engine 125 may generate (or alter) a score associated with a document based, at least in part, on information regarding linkage of independent peers.

[ 0125 ] Ricapitolando, Google può generare (o alterare) un punteggio associato ad un documento basato, almeno in parte, sulle informazioni che riguardano il collegamento dei nodi/siti indipendenti.

Non sono sicuro di avere tradotto bene il concetto di "Peers"... sono nodi o siti... o che altro?

raele.l.angelo

[0126] Document Topics

[0126] Temi del Documento

[0127] According to an implementation consistent with the principles of the invention, information regarding document topics may be used to generate (or alter) a score associated with a document. For example, search engine 125 may perform topic extraction (e.g., through categorization, URL analysis, content analysis, clustering, summarization, a set of unique low frequency words, or some other type of topic extraction). Search engine 125 may then monitor the topic(s) of a document over time and use this information for scoring purposes.

[0127] In accordo con una implementazione coerente con i principi dell'invenzione, informazioni riguardanti i TEMI di un documento possono essere usate per generare (o alterare) un punteggio associato al documento. Per esempio GG può effettuare l?estrazione dei temi (attraverso la categorizzazione, l?analisi dell?url, l?analisi dei contenuti, il clustering (qualche esperto potrebbe spiegare per bene cos?è il clustering), la sommarizzazione, un set di parole uniche a bassa frequenza, o alcuni atri tipi di estrazione del tema). GG può allora monitorare il tema (i temi) di un documento nel tempo e usare queste informazioni per assegnare il punteggio.

[0128] A significant change over time in the set of topics associated with a document may indicate that the document has changed owners and previous document indicators, such as score, anchor text, etc., are no longer reliable. Similarly, a spike in the number of topics could indicate spam. For example, if a particular document is associated with a set of one or more topics over what may be considered a "stable" period of time and then a (sudden) spike occurs in the number of topics associated with the document, this may be an indication that the document has been taken over as a "doorway" document. Another indication may include the disappearance of the original topics associated with the document. If one or more of these situations are detected, then search engine 125 may reduce the relative score of such documents and/or the links, anchor text, or other data associated the document.

[0128] Un significativo cambiamento nel tempo in un set di temi associati con il documento può indicare che il documento ha cambiato proprietario e gli indicatori del documento precedente, come il punteggio, gli anchor text, etc, non sono più attendibili. Similarmente, un picco nel numero dei temi potrebbe indicare spam. Per esempio, se un particolare documento è associato con un set di uno o più temi sui quali può essere considerato un periodo ?stabile? di tempo e poi avviene un picco (improvviso) nel numero di temi associati con il documento, questo può essere un indicatore che il documento sia un documento ?doorway?. Un'altra indicazione può includere la scomparsa dei temi originali associati con il documento. Se una o più di queste situazioni sono riscontrate, allora GG può ridurre relativamente il punteggio dei documenti e/o dei links, degli anchor text, o altri dati associati al documento.

[0129] In summary, search engine 125 may generate (or alter) a score associated with a document based, at least in part, on changes in one or more topics associated with the document.

[0129] Riassumendo, GG può generare (o alterare) un punteggio associato con un documento basato, almeno in parte, sui cambiamenti in uno o più temi associati con il documento.

giorgiotave

Bellissimo questo pezzo

Bravissimi ragazzi

raele.l.angelo

ragazzi abbiamo quasi finito ...

del "grosso" manca una sezione e le conclusioni

poi dobbiamo rivederlo e riorganizzarlo...e metterlo online

Bellissimo questo pezzo Sbav

Bravissimi ragazzi Smile

è stato un piacere

and4linux

@Raele-l'Angelo said:

ragazzi abbiamo quasi finito ...

del "grosso" manca una sezione e le conclusioni

poi dobbiamo rivederlo e riorganizzarlo...e metterlo online

Bellissimo questo pezzo Sbav

Bravissimi ragazzi Smile

è stato un piacere

che lavorone ragazzi

:re:

raele.l.angelo

EXEMPLARY PROCESSING

[0130] FIG. 4 is a flowchart of exemplary processing for scoring documents according to an implementation consistent with the principles of the invention. Processing may begin with server 120 identifying documents (act 410). The documents may include, for example, one or more documents associated with a search query, such as documents identified as relevant to the search query. Alternatively, the documents may include one or more documents in a corpus or repository of documents that are independent of any search query (e.g., documents that are identified by crawling a network and stored in a repository).

[0130] Nella figura 4 c?e? il diagramma di flusso del trattamento esemplare per l?assegnazione del punteggio al documento in accordo con l? implementazione coerente con i principi dell?invenzione.
Il trattamento può cominciare con l?identificazione ?server 120? del documento (act 410). I documenti possono includere, per esempio, uno o più documenti associati con una query di ricerca, come i documenti identificati come rilevanti per la query. Alternativamente, i documenti possono includere uno o più documenti nel corpo (corpus: raccolta di scritti  insieme dei documenti) o ?magazzino? (repository: deposito, magazzino, ripostiglio. Azzardo io: forse il db delle cache?) di documenti che sono indipendenti da ogni query di ricerca.(per esempio i documenti che sono stati identificati spiderizzando un network e immagazzinando i dati nel ?deposito?).

[0131] Search engine 125 may obtain history data associated with the identified documents (act 420). As described above, the history data may take different forms. For example, the history data may include data relating to document inception dates; document content updates/changes; query analysis; link-based criteria; anchor text; traffic; user behavior; domain-related information; ranking history; user maintained/generated data (e.g., bookmarks and/or favorites); unique words, bigrams, and phrases in anchor text; linkage of independent peers; and/or document topics. Search engine 125 may obtain one, or a combination, of these kinds of history data.

[0131] GG può ottenere l? history data associate con i documenti identificati (act 420). Come descritto sopra, l?history data può assumere diverse forme. Per esempio, l?history data può includere dati relativi alla data di introduzione del documento; alle date di aggiornamenti/cambiamenti del contenuto del documento;..cut.. praticamente controlla l?history data di tutte le sezioni fin qui analizzate penso? e GG può ottenerne una, o una combinazione, di questi tipi di history data.

[0132] Search engine 125 may then score the identified documents based, at least in part, on the history data (act 430). When the identified documents are associated with a search query, search engine 125 may also generate relevancy scores for the documents based, for example, on how relevant they are to the search query. Search engine 125 may then combine the history scores with the relevancy scores to obtain overall scores for the documents. Instead of combining the scores, search engine 125 may alter the relevancy scores for the documents based on the history data, thereby raising or lowering the scores or, in some cases, leaving the scores the same. Alternatively, search engine 125 may score the documents based on the history data without generating relevancy scores. In any event, search engine 125 may score the documents using one, or a combination, of the types of history data.

[0132] GG può poi valutare il documento identificato basato, almeno in parte, sulla history data (act 430). Quando i documento identificati sono associati con una query di ricerca, GG può anche generare punteggi attinenti per i documenti basati, per esempio, su quanto pertinenti essi sono per la query di ricerca. GG può combinare i punteggi di history con i punteggi pertinenti per ottenere punteggi ?generali? per I documenti. Invece di combinare i punteggi, GG può alterare l?attinenza dei punteggi per i documenti basati sull?history data, alzando o abbassando quindi i punteggi o, in alcuni casi, lasciando inalterati gli stessi. Alternativamente, GG può valorizzare i documenti basati sull?history data senza generare punteggi pertinenti.

[0133] When the identified documents are associated with a search query, search engine 125 may also form search results from the scored documents. For example, search engine 125 may sort the documents based on their scores. Search engine 125 may then form references to the documents, where a reference might include a title of the document (which may contain a hypertext link that will direct the user, when selected, to the actual document) and a snippet (i.e., a text excerpt) from the document. In other implementations, the references are formed differently. Search engine 125 may present references corresponding to a number of the top-scoring documents (e.g., a predetermined number of the documents, documents with scores above a threshold, all documents, etc.) to a user who submitted the search query.

[0133] Quando I documenti identificati sono associati a una query, GG può formare la serp dai punteggi dei documenti. Per esempio, GG può ordinare i risultati in base ai punteggi dei documenti. GG può allora formare delle referenze per i documenti, dove una referenza può includere un titolo del documento (che può contenere un link con anchor that dirigerà l?utente all?attuale documento) e uno snippet dal documento. In altre implementazioni, le referenze sono formate differentemente. GG può presentare referenze corrispondendo al numero dei documenti con maggior punteggio a un utente che ha fatto una certa query.

dai che e' + o - fatta...quelle due righe di conclusioni che mancano mi pare siano superflue a questo punto.

In giornata provo a dargli una risistemata generale.

beke

:brindisi:

raele.l.angelo

riorganizzando il todos ...mancano le voci da 67 a 70 ..disperse nei primi post e non ben organizzate...uff

@beke --> :brindisi:
:ehehe:

beke

@Raele-l'Angelo said:

riorganizzando il todos ...mancano le voci da 67 a 70 ..disperse nei primi post e non ben organizzate...uffCi penso io in giornata, forse in mattinata, va bene Raele?
Tu riorganizza le altre...

giorgiotave

Ma zil dov'è??

:D:D

Allora se riuscissimo a riorganizzarli cosi creiamo un Topic solo in Italiano

beke

ZIL non so, ma io e Raele stiamo lavorando...
Aspettate e vedrete...

stealth

ciaosalve ragazzi,
non ho letto tutto il post per motivi di tempo ma vorrei sapere se c'è da qualche parte la definizione del brevetto interamente tradotta in italiano.
grazie

raele.l.angelo

@Stealth said:

... vorrei sapere se c'è da qualche parte la definizione del brevetto interamente tradotta in italiano.

Ciao Stealth

Beke ed io ci stiamo applicando

Prossimamente sui nostri siti verranno pubblicati dei documenti (html e pdf ridistribuibili) con le traduzioni in italiano del brevetto (e uno con testo originale a fronte).

abbiate solo ancora un po di pazienza