• Moderatore

    Bene bene kerouac ha centrato il problema.....il punto è che per entrare in DMOZ bisogna farsi prima crocifiggere e la cosa grave è che Google selezionerà i "200 hub seri" in modo manuale.....

    Però però però.....se mi faccio linkare da 300 siti con TrustRank basso (e quindi intendo proprio dire basso, nel senso che alcuni siti potrebbero avere un fattore di discriminazione D negativo e quindi se mi facessi linkare da loro perderei TrustRank), l'algoritmo di propagazione mi assegnerà comunque un TrustRank abbastanza elevato e in questo è simile al PR, l'unica vera differenza è la selezione manuale dei vertici da cui partire per creare il grafo che rappresenta il Web.....

    Dulcis in fundo, TrustRank non è altro che l'ultima appendice (finalmente messa in azione) dell'algoritmo HillTop che prevedeva la divisione del Web in Authority sites, Hub sites e tutti gli altri siti.....Chi veniva linkato dagli Hub e/o dagli Authority era importante......

    Questo è il concetto di fondo e credo che sarà più facile per noi implementare siti web, in quanto non dovremo tener conto di cavolate tipo la keyword density che, diciamoci la verità, è una pagliacciata


  • Super User

    mi date riferimenti a questi 200 hub seri e altri fatti che date per scontato e di cui non sono ancora a conoscenza?

    grazie :ciauz:


  • User Attivo

    @must said:

    mi date riferimenti a questi 200 hub seri e altri fatti che date per scontato e di cui non sono ancora a conoscenza?

    grazie :ciauz:

    TrustRank

    http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=2004-52&format=pdf&compression=&name=2004-52.pdf


  • Super User

    grazie :ciauz:


  • Super User

    intuitivamente ho capito abbastanza, ma sarebbe bello avere la traduzione..suvvia ki traduce?


  • Community Manager

    @kerouac3001 said:

    intuitivamente ho capito abbastanza, ma sarebbe bello avere la traduzione..suvvia ki traduce?

    servirebbe 🙂


  • Bannato Super User

    Comincio io con la traduzione,

    è abbastanza accurata, ma i puristi non me ne vogliano, per me sono i concetti la cosa importante:

    Abstract

    le pagine web spam usano varie tecniche per raggiungere posizioni elevate nei motori di ricerca. Un esperto "umano" può identificare lo spam ma è molto dispendioso valutare manualmente un così vasto numero di pagine.

    Al posto di ciò (NDT - della valutazione manuale) proponiamo una tecnica che semi automaticamente possa separare le pagine buone da quelle di spam.

    Prima selezioniamo una serie di seed-page (letteralmente pagine seme io direi pagine campione) e le faremo valutare a degli esperti.

    Una volta individuate manualmente le pagine campione (seed pages) di buona reputazione usiamo la struttura dei web link per scoprire altre pagine buone.

    In questa relazione discuteremo le possibili strade per implementare la selezione delle seed pages(quelle campione) e come scoprire quelle buone.

    presentiamo i risultati di un esperimento effettuato sul WWW indicizzato da Altavista e valuteremo le prestazioni (e i risultati) della nostra tecnica.

    I nostri risultati mostrano come sia possibile effettivamente filtrare (lett. Filtrare fuori) lo spam per una parte significativa del web basandosi su un numero di 200 Siti Buoni(good seed).

    Adesso inizio a tradurre l'introduzione, se qualcuno ha voglia di tradurre questo documento per favore si prenda la seconda pagina così non facciamo doppio lavoro 😄


  • Super User

    grande emme 😄 direi che poi giorgio dovrebbe inserire la traduzione da qualche parte 🙂


  • Community Manager

    @kerouac3001 said:

    grande emme 😄 direi che poi giorgio dovrebbe inserire la traduzione da qualche parte 🙂

    E' certo, come minimo 🙂


  • User Attivo

    Cercando di capire qualcosa,
    Per essere valutati positivamente occorre avere più link in uscita che in entrata?


  • Bannato Super User

    introduzione

    Il termine web spam si riferisce a pagine Super linkate (hyperlinked) nel www che sono state create con l'intenzione di traviare (io direi fregare 😉 ) i motori di ricerca.

    Per esempio un sito pornografico potrebbe fare spam nel web aggiungendo migliaia di keywords nella sua home page, spesso mettendo testo invisibile agli umani (leggi navigatori) utilizzando ingegnosi schemi di colori. Un motore di ricerca indicizzerà le extra keywords e restituirà la pagina pornografica come risposta a queries che contengono alcune delle keyword (quelle nascoste).

    Le key aggiunte non sono tipicamente di natura adult (pornografiche), i navigatori che cercano per altri argomenti possono arrivare alla pagina (quella porno). Un'altra tecnica di spamming è la creazione di un numero elevato di Bogus pages (lett. Pagine finte) tutte che puntano ad una singola pagina obbiettivo. Siccome molti motori di ricerca tengono in conto il numero di link in ingresso per dare un valore alle pagine, il rank della pagina obbiettivo aumenterà ed apparirà nelle parti alte nei risultati della query.

    Esattamente come per l'e-mail spamming, determinare se una pagina, o un gruppo di pagine sia spam è soggettivo.

    Per esempio consideriamo un gruppo di siti web che si linkano tra di loro in maniera ripetitiva. Questi links possono rappresentare una buona relazione tra i siti, oppure possono avere creato ciò con la precisa intenzione di aumentare il rank di tutte le altre pagine.

    In generale è difficile distinguere tra questi due scenari.

    Per quanto, esattamente come con l'e-mail spam, molte persone possono facilmente identificare le assordanti e sfacciate sollecitazioni del web spam.

    Per esempio molti saranno d'accordo che se molto testo della pagina è invisibile agli "umani" (come fatto notare sopra) e quest'ultimo è irrilevante per l'argomento della pagina, allora è stato aggiunto con l'intenzione di imbrogliare.

    Similmente se si trova una pagina con molti URL che si riferiscono ad host tipo:

    buy-canon-rebel-300d-lens-case.camerasx.com,
    buy-nikon-d100-d70-lens-case.camerasx.com,
    ...,

    e si scopre che tutti questi host name fanno capo allo stesso IP si può concludere che le pagine sono state create per imbrogliare i motori di ricerca.

    (la motivazione che sta dietro all'URL spamming è che molti motori di ricerca prestano molta attenzione ai vocaboli che si trovano nell'host name e danno a questi vocaboli un peso maggiore che se si trovassero all'interno del testo.)

    Mentre molti "umani" possono riconoscere lo spam questo non vuol dire che sia facile per i computer scoprirlo.

    Le company dei motori di ricerca di solito impiegano personale specializzato nella scoperta del web spam e sono continuamente a scandagliare il web per trovare i colpevoli(cioè i siti spam) Quando una pagina spam viene identificata il search engine smette di fare il crawling, ed il suo contenuto non viene più indicizzato.

    Questo modo di trovare lo spam è un processo molto lento e dispendioso ma è una fase critica per il successo di un motore di ricerca: senza la rimozione degli sfacciati colpevoli (dice proprio così 😉 ) la qualità dei risultati subisce un degrado significativo.

    L'obbiettivo della nostra ricerca è quello di aiutare gli esperti "umani" che scoprono lo spam.

    In particolar modo vogliamo identificare le pagine ed i siti che fanno spam e le pagine ed i siti che sono "buoni".

    I metodi che presentiamo in questa relazione possono essere usati in due modi:

    1. ambedue come aiuto in uno screening iniziale, suggerendo le pagine che devono essere analizzate più approfonditamente da un esperto,

    o

    1. COME UN counter-bias (contatore di predisposizione ?) da applicare quando i risultati sono stabiliti in modo di ridurre il possibile boost realizzato dallo spam.

    Siccome la identificazione dello spam tramite algoritmi è molto difficile. il nostro schema non opera interamente senza il supporto umano.
    Così vedremo l'algoritmo principale ricevere in seguito l'assistenza umana.
    L'algoritmo seleziona inizialmente un piccolo Campione di pagine che hanno uno "spam status" che deve essere stabilito. Un esperto poi esamina queste pagine campione e dice all'algoritmo se sono spam (pagine cattive) oppure no (pagine buone). Infine l'algoritmo identifica altre pagine che sembrano buone basandosi sulla connettività con le buone pagine campione.

    Riassumendo i contributi di questo studio sono:

    1. formalizziamo il problema del web spam e dell'algoritmo scova-webspam
    2. definiamo una metrica per stimare l'efficacia dell'algoritmo scova-spam
    3. presenteremo (?) lo schema per selezionare le pagine campione che dovranno essere valutate manualmente.
    4. Introduciamo l'algoritmo TRUST RANK per determinare la probabilità che le pagine abbiano una buona reputazione.
    5. discuteremo i risultati e li valuteremo a fondo basandoci sui 31 milioni di siti spiderizzati da Alta Vista, e l'analisi manuale di oltre 2000 siti. Forniremo alcune interessanti statistiche sul tipo e la frequenza del contenuto web incontrato, e useremo i nostri dati per valutare l'algoritmo proposto.

    Ci sono già un bel po' di spunti di discussione in questa parte.

    Per il prossimo pezzo da tradurre è un po' più complicato perchè ci sono un po' di termini matematici, vado a cena e provo a fare anche quello.

    Buon appetito a voi 😄


  • Community Manager

    Se tu non hai salvato le traduzione oggi o domani dovrei avere qualcosa in mano 🙂


  • Bannato Super User

    posto anche quì.

    La traduzione è salvata solo che sta nel PC a casa ed io sono al mare sino al 12 giugno, male che vada la rimetto al suo posto appena rientro.


  • Community Manager

    @emmebar said:

    posto anche quì.

    La traduzione è salvata solo che sta nel PC a casa ed io sono al mare sino al 12 giugno, male che vada la rimetto al suo posto appena rientro.

    Ok :yuppi:


  • Super User

    Ragazzi ma sbaglio o praticamente il documento tradotto è questo:

    http://www.officialsm.net/articoli/trustrank_for_dummies.pdf

    (Fonte: l'altro Forum !)

    🙂


  • Super User

    @emmebar said:

    io sono al mare sino al 12 giugno.

    io proporrei di bannarlo a vita dal forum solo perchè noi siamo in ufficio (va beh non a quest'ora) mentre lui è al mare!!!

    INVIDIAAAAAAA :arrabbiato: :arrabbiato: :arrabbiato: :sbav: :sbav:


  • Bannato User Attivo

    @nbriani said:

    Ragazzi ma sbaglio o praticamente il documento tradotto è questo:

    http://www.officialsm.net/articoli/trustrank_for_dummies.pdf

    (Fonte: l'altro Forum !)

    🙂
    Mi sa di si leggo e poi faccio sapere.


  • User Attivo

    Scusate, c'è in progetto un tool che calcoli il TrustRank?
    :ciauz:


  • Super User

    mando un'email ad un ingegnere di google e ti faccio sapere.

    :lol:


  • Bannato Super User

    2 preliminare

    2.1 web model

    (quà ci sono un po' di cose matematiche, quindi provo a sintetizzare quello che ho capito io, Non necessariamente sarà corretto quello che dico)

    Noi modelleremo il web come un grafo G=(V, E) che consiste in un set V di N pagine (vertici) ed un set E di link diretti (edges) che connettono le pagine. Praticamente una pagina web p può avere multipli hyperlink HTML ad un'altra pagina q. in questo caso noi compattiamo questi hyperlink multipli in un singolo link (formula matematica vedi documento originale). Rimuoveremo inoltre i link verso il sito stesso(self hyperlinks). La figura 1 rappresenta un grafo web molto semplice di quattro pagine e quattro links. (per il nostro esperimento nella sezione 6, distribuiremo i siti web come contrapposizione alle pagine web individuali. Comunque il nostro algoritmo puòessere trasferito anche al caso in cui i vertici del grafo siano interi siti.

    Ogni pagina ha alcuni links in ingresso o inlinks, ed alcuni link in uscita o outlinks.

    (adesso spiega la lunga formula matematica che segue nel documento originale, lascio agli esperti la spiegazione di queste formule io mi limito a tradurre il testo dove si parla in "Chiaro" ).

    ----snip--------
    Le pagine che non hanno inlinks sono chiamate unreferenced pages. Le pagine senza outlinks sono chiamate non-referencing pages. Le pagine che allo stesso tempo sono ureferenced e non-referencing sono chiamate isolated (isolate).

    La pagina 1 nella figura 1 è una unreferencing mentre la 4 è non-referencing.

    (NDT: Adesso ci sono frmule matematiche e taglio)

    -------snip--------

    2.2 Page Rank

    il page rank è il noto algoritmo che usa le informazioni dei link per assegnare un punteggio globale di importanza a tutte le pagine del web.
    siccome il nostro algoritmo ha una relazione con il page rank questa sezione offre una breve descrizione di esso.

    L'intuizione alla base del Page Rank è che una pagina è importante se altre diverse pagine importanti puntano verso di essa.
    Corrispondentemente, il Page Rank è basato su un mutuo rafforzamento tra le pagine: l'importanza di certe pagine influenza ed è influenzata dall'importanza di altre pagine.

    (NDT: Adesso c'e la formula del page rank e la sua spiegazione matematica)

    ----snip-----

    Da questo momento il punteggio di alcune pagine p è la somma di due componenti, una parte del punteggioo viene dalle pagine che puntano verso p, ed un'altra parte (statica) del punteggio è uguale per tutte le pagine web.

    Il punteggio di page rank può essere stimato iterativamente, per esempio con il metodo jacobi. Allo stesso tempo, in senso strettamente matematico,
    l'iterazione può andare verso la convergenza, ma in pratica è molto comunemente usato un numero fisso di M iterazioni.

    E' importante notare che mentre il normale algoritmo di Page Rank assegna lo stesso valore statico ad ogni pagina, la versione Bisead (non so come tradurlo suppongo una cosa del tipo "a due valori") del page Rank può sottrarsi a questa regola.

    (NDT: adesso c'una equazione e la spiega così)

    Il vettore d è un vettore di distribuzione statica arbitrario, non negativo che si somma ad uno. il vettore d può essere usato per assegnare un valore statico Non-zero solamente ad un set di pagine "speciali".
    Il punteggio di tali pagine speciali viene esteso durante l'iterazione con le pagine alle quali puntano.


    3 assegnazione del TRUST (fiducia, credito)

    3.1 Oracle (oracolo,previsione) e funzioni di Trust

    Come detto nella sezione 1 stabilire se una pagina è spam è una cosa soggettiva e richiede la valutazione umana. Noi formalizziamo la nozione di controllo umano con una oracle function O sopra tutte le pagine (formula matematica)

    ---snip-----

    La figura 2 rappresenta un piccolo web di sette pagine dove le pagine buone sono rappresentate in bianco e le pagine cattive sono nere. Per questo esempio chiamando l'oracle nella pagina 1 alla 4 produrrà un valore di 1.

    La chiamata all'oracle è dispendiosa e impiega tempo, così noi ovviamente non vogliamo usare l'oracle function in tutte le pagine allora il nostro obbiettivo è di selezionare, ad esempio, chiedendo l'intervento umano di un esperto che valute solo alcune delle pagine web.

    Per scoprire le pagine buone senza invocare l'oracle function, ci dovremo fidare di una importante osservazione empirica che chiamiamo "approximate isolation" di un buon set: Le pagine buone raramente puntano a pagine cattive, questa nozione è onestamente intuitiva -le pagine cattive sono costruite per imbrogliare i motori di ricerca non per fornire informazioni utili. D'altro canto le persone che creano pagine buone hanno poche ragioni per puntare alle pagine cattive.

    Per quanto i creatori di buone pagine web possono a volte essere ingannati, così noi potremo trovare alcune pagine buone che puntano a pagine cattive nel web. (nella figura 2 mostriamo uno di questi link dalla pagina 4 alla pagina 5 segnato con un asterisco).

    Consideriamo il seguente esempio:

    Prendiamo un buon, ma non moderato, message board, lo spammer può includere il l'URL dellla sua pagina spam come parte di un messaggio che sembra innocente.
    Di conseguenza la pagina buona della message board avrà un link ad una pagina cattiva.

    A volte anche alcuni siti di spam offrono cò che viene chiamato vaso di miele, cioè un insieme di pagine che forniscono utili informazioni ma che hanno anche dei link verso le loro pagine di spam, il vaso di miele attrae le persone a puntare verso di esso aumentando il rank della pagina spam.

    Da notare che la relazione inversa (NDT:non sono sicuro di avere tradotto bene)all'isolamento approssimato no è necessariamente influente: le pagine spam possono infatti fare spesso un link alle pagine buone. Per esempio i creatori di pagine spam puntano ad importanti pagine buone al fine di creare un "vaso di miele" oppure sperando che molti outlinks potranno aumentare lo score della loro pagina.

    Per valutare le pagine senza fare assegnamento su O, noi stimeremo che con tutta probabilità quello che dà la pagina p sia buono.

    Più formalmente definiremo la Trust function T che produrrà un range di valori compreso tra 0 (cattivo) e 100 (buono). Idealmente , per ogni pagina p, T(p) ci darà la probabilità che p sia buona

    Ideal Trust Property

    (c'è una formula e poi la spiega)

    Per illustrare ciò, consideriamo di avere un set di 100 pagine e diciamo che il trust score di ognuna di queste pagine possa essere 0.7.
    Adesso supponiamo di valutare tutte le 100 pagine con la oracle function.
    Allora se T lavora correttamente, per 70 delle pagine in esame l'oracle score potrà essere 1 e per le rimanenti 30 sarà 0.

    In pratica è molto difficile arrivare ad una funzione T con le proprietà dette prima.
    Per quanto, anche se T non misura accuratamente la probabilità che una pagina sia buona ci può essere utile in una funzione che possa ordinare le pagine secondo la loro probabilità di essere buone.

    Questo è, se noi diamo una coppia di pagine p e q, e p ha un trust score basso quanto q , questo indicherà che p è probabilmente meno buona di q.
    Similmente una funzione sarà utile per l'ordinamento dei risultati di una ricerca dando la preferenza alle pagine che sono più probabilmente buone.

    (adesso definiscono la Trust Function e mettono un po' di formule)
    ------snip------