• User Newbie

    Metrica Motori di ricerca

    Salve ragazzi,
    avrei una domanda da porvi... Come è possibile dare una METRICA per i motori di ricerca?
    Mi spiego. Se volessi "matematizzare" ciò che fà un motore di ricerca (con tanto di funzione e grafici) che strada mi consigliereste? O se qualcuno ha già fatto un lavoro simile, potrebbe aiutarmi in quest'impresa?

    Sarei interessato a poter mettere in formule (sicuramente inventate) ciò che avviene nei motori di ricerca per stimarne i risultati... Un pò come se stessi facendo del Software Engineering per i motori di ricerca.

    Grazie per l'aiuto.


  • Community Manager

    Ciao ResH e Benvenuto,

    credo che per fare una METRICA servano molte cose, poi ogni motore è diverso.

    Inoltre con l'evoluzione di Google è quesi impossibile fare una METRICA.

    http://www.giorgiotave.it/forum/viewtopic.php?t=3778

    Ciao e Buon Forum.


  • User Newbie

    Non per forza di Google...
    Anche di un semplicissimo motore interno di un sito qualunque!

    Come potrei iniziare? Quali variabili considerare? Come modellizzarlo?


  • Super User

    Il fatto è che anche un motore di ricerca semplicissimo, senza tokenizing, senza espansione delle query, senza filtri di alcun genere, che si basa solo su un indice invertito ed una formula di term weighting, è concettualmente semplice ma comunque ci sarebbe già un bel po' di roba da scrivere.

    Inizia a dare un'occhiata agli schemi, penso che sia un buon inizio:

    http://images.google.com/images?q=search engine architecture


  • Super User

    ciao

    Stavo ragionando, ultimamente lo faccio troppo, su futuri sviluppi per studio/passione/passatempochennHo e tra le tante idee mi è venuto un dubbio

    secondo voi I Motori come si oganizzano le serp? si parla di ricalcolo delle serp periodico o giornaliero ma come gestiscono i risultati di queste elaborazioni?

    a voi...


  • Super User

    secondo me dividono i siti in blocchi (diciamo blocchi che indicano il valore, in senso lato).
    e poi ordinano i siti di ogni blocco quando viene fatta la query.
    gli update periodici valutano, tra le altre cose, anche i blocchi, e li rinnovano, riorganizzando la distribuzione dei vari siti nei vari blocchi.


  • Super User

    @Rinzi said:

    secondo voi I Motori come si oganizzano le serp? si parla di ricalcolo delle serp periodico o giornaliero ma come gestiscono i risultati di queste elaborazioni?

    Non sono certo di aver compreso la domanda, ma l'ordine con cui vengono riportate le pagine di una SERP viene calcolato in tempo reale, tranne quando la query è abbastanza comune, nel qual caso solitamente si pesca da una cache.


  • Super User

    @LowLevel said:

    Non sono certo di aver compreso la domanda, ma l'ordine con cui vengono riportate le pagine di una SERP viene calcolato in tempo reale, tranne quando la query è abbastanza comune, nel qual caso solitamente si pesca da una cache.

    si , è quello che chiedevo

    quindi si parla di query in tempo reale... fra qutti i documenti che trattano l'argomento A e ordinate in base a criteri (giudizi) eventualmente pre-valorizzati

    sulla cache di cui parli puoi darmi altre info?

    mmh

    nn voglio immaginare di che infrastruttura parliamo

    :ciauz:


  • Super User

    @Rinzi said:

    fra qutti i documenti che trattano l'argomento A

    Non sempre, dipende dall'architettura.

    Uno dei migliori modi per velocizzare i calcoli è proprio quello di evitare di prendere in considerazione tutti i documenti. Questo è ottenibile attraverso diversi metodi.

    Ma esistono anche casi in cui vengono presi in considerazioni più documenti di quelli che la query immessa dall'utente condurrebbe ad esaminare, questo avviene per esempio quando le query vengono espanse dal motore (il che può accadere molto spesso, specie per le query corte).

    e ordinate in base a criteri (giudizi) eventualmente pre-valorizzati

    Sì. Alcuni criteri possono beneficiare (almeno in parte) di valori pre-calcolati, per altri è necessario calcolare tutto da zero.

    sulla cache di cui parli puoi darmi altre info?

    Non c'è molto da dire. E' una semplice cache in cui stanno memorizzati dei puntatori ai documenti da mostrare (calcolati durante una query precedente) oppure, a seconda dell'implementazione, addirittura il codice HTML finale.

    nn voglio immaginare di che infrastruttura parliamo

    Varia moltissimo. Google è stato progettato per funzionare con migliaia di server. Gigablast è stato progettato per funzionare con pochissimi PC.