TrustRank: il gioco di prestigio

paolino

TrustRank: il gioco di prestigio

Cari amici forumisti Google l'ha fatto di nuovo.....forse non capisce che il Web è una cosa seria e non un'arena in cui fare giochini matematici....

Da quello che ho letto e capito TrustRank fa le seguenti cose:

seleziona un numero N di siti web tra quelli etichettati come Hub site (cioè siti con un grandissimo numero di outbound links);
assegna a tali siti un Rank = 1;
partendo da questi siti segue i link e assegna tramite una funzione "oracolo" un valore di TrustRank;
ovviamente il TrustRank di P viene diviso per il numero di outbound links prima di essere "passato" alle pagine linkate;
inoltre calcola la distanza della generica pagina Q da P (più Q è distante più il TrustRank sarà basso).

Sinceramente questo algoritmo mi sembra peggiore di PR.....infatti così facendo si creeranno sul Web "amici, compari e comparielli" nel senso che se io sono linkato da Pinco Pallino allora sono suo amico e quindi mi si aprono le porte del Web altrimenti mi attacco al tram.......

Il carattere democratico del Web è andato a farsi friggere......inoltre col TrustRank si può lo stesso fregare il motore......basta solo avere dei link da siti con un buon TrustRank (meglio se dai Big Boys).....

Beh per ora le cose stanno così, spero che Google abbia corretto il tiro nell'implementazione, perchè così fatto TrustRank è un algoritmo fascista....

kerouac3001

non è detto..probabilmente uno di questi HuB potrebbe essere dmoz..secondo me sta facendo un buon lavoro..nonostante io sia il peggior nemico di google (la maggior parte dei miei siti è in cloaking e pure molto spammoso ahahahah )..secondo me noi webmaster ne trarremo vantaggi, perchè sarà sempre + difficile per un utente non esperto arrivare in vetta alle serp certo dovremo romperci il culo pure noi, ma diciamo che diventeremo sempre + essenziali per chi vuole una certa visibilità nel web

donnie

Quindi chi aveva un PR 2 o 3 si ritroverà un ipotetico TR 0 o sbaglio?

paolino

no Google ricalcolerà il TrustRank per tutte le pagine nel suo DB (o i siti non ho capito bene)......

kerouac3001

vi spiego come l'ho capita io: google partirà nel suo calcolo del pr da 200 hub seri..è ovvio che gli hub che ha scelto non contengono pagine spam ok? dunque lui ha deciso di calcolare il pr dei siti non solo in base ai BLs ma anche in base alla distanza del sito dagli hub seri..se per arrivare al sito ci vogliono 5 passaggi allora è probabile che quel sito non sia affidabile.

Facciamo un esempio..google usa dmoz come punto di partenza..legge i siti presenti ed è sicuro che sia affidabili..però i siti che sono presenti in dmoz potrebbero avere una piccola percentuale di link a siti spam (ma molto bassa, altrimenti dmoz nnon li avrebbe nemmeno presi in considerazione)..diciamo che google ha capito che più si allontana dal HUB serio più aumenta la percentuale di siti spam. quindi con questa mossa google attribuendo un TR diverso in funzione della distanza tra il sito e l'hub serio più vicino, evita che i siti spam possano raggiungere le vette delle serp..questo che significa per noi comuni mortali? che le nuove tecniche di posizionamento non prevederanno uso di cloaking (dmoz accetterebbe siti in cloaking?..dubito)..non prevedono un uso spammoso di keyword per posizionarsi in alto..devi sempre avere molti BLs..eccetera

in sostanza basta fare un buon sito, con contenuti validi, ottimizzazione di keyword e struttura (ma mantenendo coerenza..senza diventare un sito spam), aumentare i BLs e come per magia salirai le serp. Se il tuo sito è valido stai sicuro che non hai nulla da temere. Sono i maniaci del cloaking come me che devono temere e parecchio

paolino

Bene bene kerouac ha centrato il problema.....il punto è che per entrare in DMOZ bisogna farsi prima crocifiggere e la cosa grave è che Google selezionerà i "200 hub seri" in modo manuale.....

Però però però.....se mi faccio linkare da 300 siti con TrustRank basso (e quindi intendo proprio dire basso, nel senso che alcuni siti potrebbero avere un fattore di discriminazione D negativo e quindi se mi facessi linkare da loro perderei TrustRank), l'algoritmo di propagazione mi assegnerà comunque un TrustRank abbastanza elevato e in questo è simile al PR, l'unica vera differenza è la selezione manuale dei vertici da cui partire per creare il grafo che rappresenta il Web.....

Dulcis in fundo, TrustRank non è altro che l'ultima appendice (finalmente messa in azione) dell'algoritmo HillTop che prevedeva la divisione del Web in Authority sites, Hub sites e tutti gli altri siti.....Chi veniva linkato dagli Hub e/o dagli Authority era importante......

Questo è il concetto di fondo e credo che sarà più facile per noi implementare siti web, in quanto non dovremo tener conto di cavolate tipo la keyword density che, diciamoci la verità, è una pagliacciata

must

mi date riferimenti a questi 200 hub seri e altri fatti che date per scontato e di cui non sono ancora a conoscenza?

grazie

and4linux

@must said:

mi date riferimenti a questi 200 hub seri e altri fatti che date per scontato e di cui non sono ancora a conoscenza?

grazie

TrustRank

http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=2004-52&format=pdf&compression=&name=2004-52.pdf

must

grazie

kerouac3001

intuitivamente ho capito abbastanza, ma sarebbe bello avere la traduzione..suvvia ki traduce?

giorgiotave

@kerouac3001 said:

intuitivamente ho capito abbastanza, ma sarebbe bello avere la traduzione..suvvia ki traduce?

servirebbe

emmebar

Comincio io con la traduzione,

è abbastanza accurata, ma i puristi non me ne vogliano, per me sono i concetti la cosa importante:

Abstract

le pagine web spam usano varie tecniche per raggiungere posizioni elevate nei motori di ricerca. Un esperto "umano" può identificare lo spam ma è molto dispendioso valutare manualmente un così vasto numero di pagine.

Al posto di ciò (NDT - della valutazione manuale) proponiamo una tecnica che semi automaticamente possa separare le pagine buone da quelle di spam.

Prima selezioniamo una serie di seed-page (letteralmente pagine seme io direi pagine campione) e le faremo valutare a degli esperti.

Una volta individuate manualmente le pagine campione (seed pages) di buona reputazione usiamo la struttura dei web link per scoprire altre pagine buone.

In questa relazione discuteremo le possibili strade per implementare la selezione delle seed pages(quelle campione) e come scoprire quelle buone.

presentiamo i risultati di un esperimento effettuato sul WWW indicizzato da Altavista e valuteremo le prestazioni (e i risultati) della nostra tecnica.

I nostri risultati mostrano come sia possibile effettivamente filtrare (lett. Filtrare fuori) lo spam per una parte significativa del web basandosi su un numero di 200 Siti Buoni(good seed).

Adesso inizio a tradurre l'introduzione, se qualcuno ha voglia di tradurre questo documento per favore si prenda la seconda pagina così non facciamo doppio lavoro

kerouac3001

grande emme direi che poi giorgio dovrebbe inserire la traduzione da qualche parte

giorgiotave

@kerouac3001 said:

grande emme direi che poi giorgio dovrebbe inserire la traduzione da qualche parte

E' certo, come minimo

shade

Cercando di capire qualcosa,
Per essere valutati positivamente occorre avere più link in uscita che in entrata?

emmebar

introduzione

Il termine web spam si riferisce a pagine Super linkate (hyperlinked) nel www che sono state create con l'intenzione di traviare (io direi fregare ) i motori di ricerca.

Per esempio un sito pornografico potrebbe fare spam nel web aggiungendo migliaia di keywords nella sua home page, spesso mettendo testo invisibile agli umani (leggi navigatori) utilizzando ingegnosi schemi di colori. Un motore di ricerca indicizzerà le extra keywords e restituirà la pagina pornografica come risposta a queries che contengono alcune delle keyword (quelle nascoste).

Le key aggiunte non sono tipicamente di natura adult (pornografiche), i navigatori che cercano per altri argomenti possono arrivare alla pagina (quella porno). Un'altra tecnica di spamming è la creazione di un numero elevato di Bogus pages (lett. Pagine finte) tutte che puntano ad una singola pagina obbiettivo. Siccome molti motori di ricerca tengono in conto il numero di link in ingresso per dare un valore alle pagine, il rank della pagina obbiettivo aumenterà ed apparirà nelle parti alte nei risultati della query.

Esattamente come per l'e-mail spamming, determinare se una pagina, o un gruppo di pagine sia spam è soggettivo.

Per esempio consideriamo un gruppo di siti web che si linkano tra di loro in maniera ripetitiva. Questi links possono rappresentare una buona relazione tra i siti, oppure possono avere creato ciò con la precisa intenzione di aumentare il rank di tutte le altre pagine.

In generale è difficile distinguere tra questi due scenari.

Per quanto, esattamente come con l'e-mail spam, molte persone possono facilmente identificare le assordanti e sfacciate sollecitazioni del web spam.

Per esempio molti saranno d'accordo che se molto testo della pagina è invisibile agli "umani" (come fatto notare sopra) e quest'ultimo è irrilevante per l'argomento della pagina, allora è stato aggiunto con l'intenzione di imbrogliare.

Similmente se si trova una pagina con molti URL che si riferiscono ad host tipo:

buy-canon-rebel-300d-lens-case.camerasx.com,
buy-nikon-d100-d70-lens-case.camerasx.com,
...,

e si scopre che tutti questi host name fanno capo allo stesso IP si può concludere che le pagine sono state create per imbrogliare i motori di ricerca.

(la motivazione che sta dietro all'URL spamming è che molti motori di ricerca prestano molta attenzione ai vocaboli che si trovano nell'host name e danno a questi vocaboli un peso maggiore che se si trovassero all'interno del testo.)

Mentre molti "umani" possono riconoscere lo spam questo non vuol dire che sia facile per i computer scoprirlo.

Le company dei motori di ricerca di solito impiegano personale specializzato nella scoperta del web spam e sono continuamente a scandagliare il web per trovare i colpevoli(cioè i siti spam) Quando una pagina spam viene identificata il search engine smette di fare il crawling, ed il suo contenuto non viene più indicizzato.

Questo modo di trovare lo spam è un processo molto lento e dispendioso ma è una fase critica per il successo di un motore di ricerca: senza la rimozione degli sfacciati colpevoli (dice proprio così ) la qualità dei risultati subisce un degrado significativo.

L'obbiettivo della nostra ricerca è quello di aiutare gli esperti "umani" che scoprono lo spam.

In particolar modo vogliamo identificare le pagine ed i siti che fanno spam e le pagine ed i siti che sono "buoni".

I metodi che presentiamo in questa relazione possono essere usati in due modi:

ambedue come aiuto in uno screening iniziale, suggerendo le pagine che devono essere analizzate più approfonditamente da un esperto,

o

COME UN counter-bias (contatore di predisposizione ?) da applicare quando i risultati sono stabiliti in modo di ridurre il possibile boost realizzato dallo spam.

Siccome la identificazione dello spam tramite algoritmi è molto difficile. il nostro schema non opera interamente senza il supporto umano.
Così vedremo l'algoritmo principale ricevere in seguito l'assistenza umana.
L'algoritmo seleziona inizialmente un piccolo Campione di pagine che hanno uno "spam status" che deve essere stabilito. Un esperto poi esamina queste pagine campione e dice all'algoritmo se sono spam (pagine cattive) oppure no (pagine buone). Infine l'algoritmo identifica altre pagine che sembrano buone basandosi sulla connettività con le buone pagine campione.

Riassumendo i contributi di questo studio sono:

formalizziamo il problema del web spam e dell'algoritmo scova-webspam
definiamo una metrica per stimare l'efficacia dell'algoritmo scova-spam
presenteremo (?) lo schema per selezionare le pagine campione che dovranno essere valutate manualmente.
Introduciamo l'algoritmo TRUST RANK per determinare la probabilità che le pagine abbiano una buona reputazione.
discuteremo i risultati e li valuteremo a fondo basandoci sui 31 milioni di siti spiderizzati da Alta Vista, e l'analisi manuale di oltre 2000 siti. Forniremo alcune interessanti statistiche sul tipo e la frequenza del contenuto web incontrato, e useremo i nostri dati per valutare l'algoritmo proposto.

Ci sono già un bel po' di spunti di discussione in questa parte.

Per il prossimo pezzo da tradurre è un po' più complicato perchè ci sono un po' di termini matematici, vado a cena e provo a fare anche quello.

Buon appetito a voi

giorgiotave

Se tu non hai salvato le traduzione oggi o domani dovrei avere qualcosa in mano

emmebar

posto anche quì.

La traduzione è salvata solo che sta nel PC a casa ed io sono al mare sino al 12 giugno, male che vada la rimetto al suo posto appena rientro.

giorgiotave

@emmebar said:

posto anche quì.

La traduzione è salvata solo che sta nel PC a casa ed io sono al mare sino al 12 giugno, male che vada la rimetto al suo posto appena rientro.

Ok

nbriani

Ragazzi ma sbaglio o praticamente il documento tradotto è questo:

http://www.officialsm.net/articoli/trustrank_for_dummies.pdf

(Fonte: l'altro Forum !)