• Moderatore

    Ciao Roberto,
    ho letto con piacere la tua risposta.

    Sì, la P di WDFPIDF a quanto ho potuto comprendere dovrebbe essere una semplice costante di normalizzazione (o simile).
    No mi spiace, non ho trovato materiale in Inglese su WDF*IDF, solo in Tedesco. Neanch'io parlo Tedesco; lo sto studiando per averne un'infarinatura ma il mio livello è ancora tanto basso e devo usare la combinata di Google Translate, Bing Translator e Yandex Translate verso l'Inglese per comprendere il materiale.
    Mi sono fatto l'idea il mondo SEO Tedesco sia un ecosistema abbastanza chiuso: nei forum e community in Inglese è raro trovare Tedeschi attivi, e vi è una insolità quantità di produttori locali di strumenti SEO, specie on-line (per esempio, Sistrix e SeoKicks sono entrambe Tedesche).

    Lo studio di SearchMetrics pecca di numerose ingenuità, in particolare nella distinzione tra causa ed effetto (anche se lo concede in parte nelle note introduttive). Come hai anche tu fatto notare, è piuttosto parco di particolari sulla metodologia adottata (se ben ricordo dovrebbe essere possibile scaricare i raw data).

    Lo studio dei Mozzer dice qualcosina in più (in particolare qui http://moz.com/blog/determining-relevance-how-similarity-is-scored ) ma anch'esso per la parte on-page è in a mio avviso inficiato dal non filtrare tenendo solo i siti privi di link esterni e dal limitare lo studio alle prime 50 posizioni (con solo segnali on-site su keyphrase competitive finire in quinta pagina può essere considerato un discreto risultato nella mia esperienza!).. anche se è un miglioramento rispetto al 2009 dove tenevano in considerazione solo le prime 25 posizioni.
    Nel post anzi link-ato vedrai le correlazioni rilevate per i vari document model sono basse rispetto ad altri parametri on-page di diversa natura.

    Anche Moz non spiega troppo la metodologia usata. Se ho capito bene come dataset di riferimento verso cui computare le distanze vettoriali in TF*IDF usa l'insieme delle 50 pagine esaminate (non lo dice, lo inferisco); se così fosse sarebbe una misura falsata che porterebbe a valori più bassi rispetto a un dataset statisticamente rappresentativo.
    Per il Language Model non dice purtroppo che dati di statistiche linguistiche ha usato (P.S.: se sei a conoscenza di base dati di pubblico dominio o comunque con licenza utilizzabile senza troppe restrizioni, per le lingue più comuni, ti prego volermelo segnalare, tempo fa le mie ricerche erano state infruttuose).

    A presto 🙂


  • User

    Se ho ben interpretato lo studio che hai postato direi che è ideato un po' malino; cioè serve a dimostrare cose piuttosto ovvie; se ho capito bene lui fissa una query, poi prende 500 pagine di cui 50 in serp e 450 random. Ordina queste 500 pagine in base alla page authority da un lato e in base allo score dell'algoritmo semantico dall'altro. Poi conta la percentuale delle prime 50 voci di queste liste ordinate che sono effettivamente presenti in serp e si accorge che nell'ordinamento basato su PA la percentuale è analoga a quella del "gruppo di controllo" formato da 50 voci random tra le 500 mentre nell'ordinamento basato sullo score semantico è 10 volte più alta. Ma direi che questo era abbastanza prevedibile..o meglio dice esattamente quello che abbiamo osservato in questo post. Per quale ragione la semplice PA dovrebbe fornire un parametro di pertinenza rispetto ad una query arbitraria? La PA è solo relativa al numero di link inbound...e qui torniamo al punto, ossia che secondo me google utilizza un qualche algoritmo semantico (tipo LDA LSA ecc.) per fare una prima scrematura e capire quali pagine sono rilevanti e quali no per una data query, i.e. la relevance dell'articolo che hai postato; a questo punto sforna proprio il ranking finale e lo ottiene principalmente tramite la PA e, aggiungo io, secondariamente anche tramite algoritmi di similarity un po' più "rozzi" dal punto di vista semantico ma più attenti alla presenza di corrispondenze esatte come appunto i vari modelli vettoriali tf*idf o il BM25.

    Dico questo perché sappiamo bene tutti che la presenza di una corrispondenza esatta di una query nel title o nel dominio ha il suo peso; peso senza dubbio relativo; perché chiaramente una pagina che ha "solo" una corrispondenza generica in title e nulla in URL se ha una PA alta batterà la mia pagina senza link in entrata ma con title e url ottimizzati; ma di certo non troveremo in prima pagina title che non c'entrano nulla con la query anche se hanno una PA alta, cosa che stando solo agli score semantici sarebbe possibile...si può parlare in modo estremamente pertinente del "topic latente" di una query evitando accuratamente di usare qualsiasi parola della query. Google lo capisce e ti posiziona, ma ti posiziona meglio se usi proprio la query =_=

    Tra l'altro questo non contraddice affatto la "scarsa" correlazione degli score col posizionamento, perché è chiaro che la PA pesa molto di più...quel grafico sulla correlazione andrebbe letto così "se per assurdo dovessi fare a meno di PA o di score per posizionarmi, mi posizionerei meglio se sacrificassi un po' di score in favore di PA, fermo restando che se lo sacrificassi tutto non mi posizionerei" (mentre invece per una query non competitiva è vero il contrario, posso posizionarmi solo con lo score...)

    Tu secondo me hai centrato esattamente il punto della questione prima dicendo che andrebbero condotti esperimenti con pagine con bassa PA (o nulla). La pensiamo esattamente allo stesso modo. Sono certo che così (o più in generale utilizzando pagine con PA simile, non necessariamente bassa) troveremmo che gli score degli algoritmi IR hanno una correlazione quasi perfetta col ranking. Il punto è che un esperimento simile purtroppo non si può fare...perché semplicemente non troveremo mai una serp che contempli solo pagine senza authority...quello che ho fatto io è un po' diverso; mi sono andato a scegliere un centinaio di pagine, tutte posizionate, ognuna per la sua keyword, e ognuna con PA prossima a zero. In questo modo si può ottenere un dato statistico sui valori di questi score per "una generica pagina X priva di authority posizionata per una keyword Y"; secondo me è l'unico approccio possibile per cercare di avere un range di riferimento "ideale" di quegli score. L'idea è che aggiungere poi authority alle suddette pagine non possa che rafforzarne la stabilità nel posizionamento. E` un modo in sostanza per sapere su che range di score devo attestarmi quando ottimizzo una pagina, a prescindere dalla keyword che sto spingendo o dal link building che voglio fare in seguito.

    In definitiva lo scopo di un qualsiasi strumento come quello che sto sviluppando è solo quello di fare le cose nel miglior modo possibile dal punto di vista dell'ottimizzazione interna per poi potersene dimenticare e dedicarsi con più tranquillità alla costruzione dell'authority nei mesi (e anni..) successivi. Niente più di questo. Tra l'altro il fatto che la PA sia molto più importante di questi score a pensarci è una benedizione; e l'idea che sottende è geniale. Se google si basasse solo sugli score non riuscirei a trovare una pagina di wikipedia che magari sarebbe battuta da una qualsiasi pagina piena di stupidaggini che però ha title e url ben ottimizzati...

    Mi scuso per la prolissità, quando parlo di qualcosa che mi interessa divento verboso. Ti ringrazio ancora per il tuo preziosissimo feedback, ti invito a darmi quanti più pareri e idee ti sia possibile. Vale ovviamente per chiunque voglia dire la sua; qualsiasi parere è fondamentale; soprattutto da chi di SEO ne sa infinitamente più di me. A presto!

    Rob


  • Moderatore

    Ciao, solo un rapido pensiero mattutino prima di andare al lavoro:
    @Bodhisattva said:

    ...non troveremo mai una serp che contempli solo pagine senza authority...

    Oh sì, in tutte le SERP intorno allla pagina 10 😄


  • Community Manager

    Ciao Bodhisattva e benvenuto nel forum gt!

    Bello il tuo nick, mi fai riaffiorare tutti i mesi passati in Thailandia degli ultimi 10 anni della mia vita. Ma non sono così vecchio, ho 31 anni 😄

    E con il tuo post mi hai fatto ricordare di una "piccola" cosa successa in queste meravigliose pagine del Forum GT, nel 2005! Un certo LowLevel, che oggi si è "ritirato" su Google Plus (Enrico Altavilla), aprì un thread storico dal titolo "Gli è tutto sbagliato, tutto da rifare..." (Bartali).

    Per tutti noi rappresentò un momento di crescita veramente importante. Incominciammo a studiare seriamente i motori di ricerca, gli algoritmi, l'IR e tutto quanto.

    Personalmente, se devo identificare un momento in cui la community Italiana è cresciuta di molto è stato quello e per me Enrico rappresenta la persona più influente ieri e oggi.

    Ti consiglio di leggere quel thread.

    Ci portò, per gioco, a costruire un motore di ricerca chiamato Teecno.

    Oggi credo e sostengo che sia impossibile fare IR su Google perché nemmeno loro sarebbero in grado di farlo. I fattori in gioco sono diventati tantissimi e gli algoritmi in apprendimento automatico stanno diventando sempre più influenti. Senza considerare che il concetto di query di 10 anni fa non esiste praticamente più, oggi per una singola query entrano in gioco le entità, le categorizzazioni, le personalizzazioni.

    Spero che Enrico possa darti una visione migliore della mia per indirizzarti verso la giusta strada.

    Lo pingo su Google Plus 😉

    Giorgio

    P.s. ottimi consigli Federico!


  • User

    Salve Giorgio, sarà un caso o forse no ma è stato proprio Enrico Altavilla a portarmi (involontariamente) a scrivere su queste pagine... Ho capito che prima di procedere mi serviva un qualche parere illuminato e mi è capitato di chiedere consiglio a lui sul suo blog, poi seguendo un po' le sue orme virtuali ho scoperto che la comunità di riferimento per questi argomenti in italia è questa. E` interessante che tu abbia citato proprio lui; leggerò quel thread con entusiasmo.

    ps: <offtopic> Per quanto riguarda il mio nick temo ti deluderò un po'; nel mio caso (per chi mi conosce) "bodhisattva" ha una enoooorme componente ironica...:D nel senso che sono probabilmente la persona più lontana al mondo dall'illuminazione e dal silenzio della mente. 😄 In compenso adoro la figura del santone in generale; ma più il tipo predicatore a las vegas vestito da elvis che l'asceta in Tibet. 😄 </offtopic>

    @Federico: :°D


  • User

    Spunto davvero molto interessante.

    Sostanzialmente condivido tutto quello che ha detto Federico Sasso.

    Se riportiamo tutto in ambito culinario, anche avendo la lista degli ingredienti e la ricetta esatta, la torta che fa mia moglie non è mai uguale a quella di mia madre. Non mi sbilancio per ovvie ragioni, nel dire quale sia la migliore, ma non sono uguali.

    Ora a noi (mi includo già nel progetto) non solo manca la lista completa degli ingredienti (alcuni li intuiamo), ma cosa piu' importante, ignoriamo completamente come questi si uniscono e lavorino in simbiosi per incidere sul risultato finale.

    Inoltre nel progetto si partirebbe già a priori nell'escludere tutto cio' che è considerato "off site", e probabilmente anche cio' che è in-site ma al di fuori del documento in analisi.

    Senza contare che la ricetta di fatto cambia di tanto in tanto, e non si sa neppure quando, quindi dovremo fare migliaia di torte al giorno, assaggiarle tutte e ritarare l'algoritmo prima che la ricetta cambi nuovamente.

    Con tutti questi distinguo la possibilità di ottenere un risultato simile a quello di google è di fatto impossibile.

    Tutto cio' potrebbe comunque essere interessante, fermo restando l'impossibilità di trovare una stretta correlazione tra i due rank.

    Una cosa che ho trovato molto interessante e potrebbe ispirare qualche idea innovativa se applicata ad un progetto come questo potrebbe essere quella che viene definita "genetic programming" qui un semplice esempio chiarificatore: rogeralsing.com/2008/12/07/genetic-programming-evolution-of-mona-lisa/


  • User

    Premetto che tutti i parametri presi in considerazione da Google, o almeno quelli che dichiara, e tutti i suoi algoritmi mi hanno proprio rotto le scatole.
    Inoltre considero la SEO una parte integrante di un progetto web, come lo sono grafica, accessibilità, user experience, programmazione, hostibng, etc etc...
    Tornando all'esempio di Gianmaria direi che da molti anni ormai sviluppo progetti web come mia suocera fa le torte: come mi viene con quello che ho.
    Lei quasi sempre non segue le dosi ma valuta gli ingredienti (come mi viene) e personalizza il gusto con quello che ha a disposizione: yogurt, pinoli, mandorle, etc. (quello che ho).
    Certo avere uno strumento per sapere se la torta verrà bene prima di averla cotta e decorata sarebbe fantastico perchè non sempre basta l'esperienza.
    Direi quindi che un tool del genere come descritto da Bodhisattva sono anni che vorrei realizzarlo ma il tempo che ho non è sufficiente, mentre invece sarei felice di collaborare per realizzarlo.


  • Moderatore

    Ciao Bodhisattva e benvenuto sul forum GT,
    io vorrei rompere un po' le uova nel paniere in modo costruttivo 🙂

    Perchè dovrei usare il tuo tool?
    Quali benefici ne ottengo?

    Poi vorrei solo evidenziare anche una cosa, come sappiamo google ha una marea di algoritmi ognuno dedicato ad una funzione, di cui quelli dedicati alla comprensione del contesto non sono per il posizionamento ma per archiviare meglio il contenuto trovato (correggetemi pure se mi sbaglio :-)).

    Quindi qual'è l'obbiettivo di google? Fornire il miglior risultato possibile all'utente che effettua una ricerca.

    Come ottiene questo?

    Io credo che lo ottenga appunto avendo messo in ordine nel suo archivio tutte queste informazioni, poi ovviamente usa anche l'archivio dei fattori esterni, frulla tutto e il risultato più rilevante verrà mostrato in serp (ovviamente ho semplificato molto).

    Quindi torno alle prime domande, quali benefici ottengo con il tuo tool?
    A cosa mi serve lo score elaborato?

    Ciao
    Enea


  • Moderatore

    <ot>
    @Giorgio grazie per aver linkato il vecchio thread di Enrico. Sapevo era un vecchio frequentatore del Forum GT, ma il suo "Jè tutto sbagliato" m'era ignoto.
    L'ho letto con piacere, e con esso un bel po' di discussioni successive. Mi ha stupito vedere la positiva reazione dei membri del Forum buttatisi a capofitto nel ristudiare le basi di materie sicuramente ostiche per chi non le ha mai affrontate nel proprio corso di studi.
    Nemmeno sapevo del progetto Teecno; peccato avervi scoperto ben dopo, è un'avventura mi sarebbe piaciuto vivere.
    </ot>


  • User

    @Giorgio
    Grazie alla mia insonnia ho appena avuto tempo di leggere tutto il post di LowLevel...è stato molto interessante. Leggendolo continuavo a dimenticare che fosse un post di 8 anni fa ed ero sempre lì lì per commentare. In effetti l'analogia con questo thread è forte...sono lieto di aver "rispolverato" una vecchia gloria. Chissà che non continui a dare frutti anche 8 anni dopo.

    @Gianmaria
    Il paragone culinario è quantomai azzeccato. Ricordo che fu il primo paragone che usò l'insegnante in un corso di algoritmi e strutture dati che seguii all'università, la ricetta di cucina è il modo migliore per immaginare un algoritmo. E tu hai perfettamente ragione; non possiamo conoscere né gli ingredienti né i "passi" della ricetta. Però questo direi che è nell'ordine delle cose; sono le regole del gioco cui abbiamo scelto di giocare...se avessimo accesso agli algoritmi di Google non esisterebbe nemmeno questo forum e non saremmo qui a discutere (e smetterebbe presto di esistere anche Google). Posso risonderti però che non serve avere la formula della coca cola per produrre la pepsi...o i vari cloni che in definitiva sono abbastanza simili. Gli algoritmi di google muovono il mondo e l'economia; modificarli significa modificare il pil delle nazioni...probabilmente quegli algoritmi saranno custoditi in un bunker 10 metri sotto il deserto del Nevada con un piccolo esercito a presidiare la zona. Questo per dire che siamo solo poveri peccatori che sperano in un posto in paradiso (in prima pagina :D) ma non ci è dato conoscere i piani di Dio (Google)...questo però non vuol dire che non possiamo farcene un'idea anche piuttosto precisa. Se non potessimo farlo non esisterebbe il mestiere di SEO; quindi lo scopo è affinare quella precisione. Il modo? Questo è complicato.
    Tanto per cominciare bisogna chiarire ancora lo scopo del gioco: non si tratta di trovare una formula magica che risolva in modo algoritmico il problema del posizionamento; questo è ridicolo solo pensarlo. Come hai detto tu partiamo subito con l'escludere tutto quello che è "off-site", e già così tagliamo fuori i fattori di ranking maggiori. Il punto però è che l'ottimizzazione è una pratica settoriale; e i due settori "interno" ed "esterno" sono completamente indipendenti, non si disturbano a vicenda e ci si occupa indipendentemente prima dell'uno poi dell'altro. Quello esterno pesa di più, ma questo non vuol dire che quello interno non sia necessario. Ecco, il mio scopo quindi è fare chiarezza una volta per tutte sulle centinaia di discussioni a proposito dell'IR che si leggono in giro e fornire un tool che sfrutti effettivamente gli algoritmi noti di information retrieval di cui si parla spesso nelle comunità seo ma che poi in definitiva sono argomenti appannaggio di chi ha un po' di competenze di settore per andarsi a leggere i testi e gli articoli accademici in cui sono riportati. Per il resto; pensare di approcciare in modo algoritmico la costruzione dell'authority di una pagina è fuori discussione, è come pensare di trovare una "formula per diventare famosi" o una "formula per dare un valido contributo all'umanità", non credo che abbiamo queste mire. 😄
    Come si fa a capire se funziona? Questo è semplice, basta stabilire una correlazione statistica tra il posizionamento e l'appartenenza a un certo range di questi score. Ma attenzione, per avere dati interessanti bisogna testare solo pagine che abbiano fattori di posizionamento esterno simili (possibilmente nulli). Sono certo che con queste ipotesi la correlazione sarà molto alta; infatti non capisco perché negli studi proposti da semoz e dalle altre comunità i fattori di correlazioni continuino a venir calcolati sulle "prime n pagine"...così è come voler trovare una correlazione tra la velocità massima delle automobili e le dimensioni degli sportelli...-.- mi pare ovvio che sarà bassa -.- se invece fissiamo la cilindrata e i cavalli scommetto che le linee aerodinamiche di sportelli più sottili avranno una correlazione molto più alta.
    ps: appena posso guarderò l'articolo del tuo link.

    @FraTac
    L'esperienza può tra le altre cose sopperire benissimo all'uso di algoritmi simili. Se hai l'"occhio" giusto e quel sesto senso che ti fa scrivere naturalmente le cose come piacciono a google sei a cavallo e non ti serve nient'altro. Diciamo che un programmino simile potrebbe al più darti un riscontro delle tue intuizioni. Io ad esempio non credo di avere occhio in quel senso; è da poco tempo che mi occupo di seo e per uno come può fare la differenza.
    In ogni caso sei il benvenuto per qualsiasi supporto tu voglia dare; magari tra qualche tempo se la nostra "politica" resta (come io vorrei) di procedere in ambito opensource potrei chiedere a qualche volenteroso di queste parti di partecipare al beta testing.

    @Enea
    Non chiederti cosa il mio tool può fare per te, chiediti invece cosa tu puoi fare per il mio tool!! (cit.)

    Ovviamente scherzo, ora ti rispondo seriamente e ahimè, sinceramente:

    Cosa può fare il mio tool per te?
    Direi che dipende, dalla tua esperienza e dalla tua bravura come SEO; in generale ti rispondo che se hai molta esperienza e sei molto bravo può fare poco, non ti farà posizionare pagine per keyword competitive se non gli associ le altre pratiche di posizionamento usuali, può darti un supporto per l'ottimizzazione interna e in alcuni casi fare anche la differenza; la verità è che per risponderti con precisione devo prima svilupparlo e raccogliere dati.
    Direi che se la mia intuizione è giusta lo scenario è il seguente: se di tuo sei già molto bravo nella migliore delle ipotesi può farti "limare" qui e lì l'ottimizzazione del testo on-page e guadagnare qualche posizione; e sicuramente può darti un riscontro oggettivo e quantificabile per essere certo che il tuo lavoro rientri in un "range ottimale" che sei certo che piace a google. Se invece sei scarso può fare la differenza. Tutto ciò per chiavi non competitive. Per quelle competitive il contributo che può dare è sensibilmente ridimensionato per tutti i discorsi già fatti.
    Poi magari la mia intuizione è pessimistica e invece questi score saranno determinanti in scenari più generali, staremo a vedere.

    Cosa può fare il mio tool per me?
    Per me lo scenario è più roseo che per te 😄 perché tanto per cominciare io ho un'esperienza molto ridotta quindi l'aiuto che può darmi è più significativo, mi è stato chiesto di occuparmi di posizionamento e lo faccio partendo da quello che conosco, la matematica. Poi ci sarà tempo e modo per chiedere a voi come fare per risolvere le altre questioni seo...:D (ho già aperto un paio di thread in proposito) Poi semplicemente mi piace l'idea di poter dare un contributo (di qualsiasi entità sia) in base alle mie competenze; quindi molto semplicemente mi diverte approfondire queste questioni e sviluppare software in qualche modo innovativo.
    Ah poi dimenticavo, in una qualche misura mi darà visibilità; perché di fatto non esiste nulla di simile a parte i lavori (a pagamento) di seomoz ma anche quelli sono abbastanza diversi; il che significa che contribuirà a farmi lavorare nell'ambito che mi piace...(spero che sincerità e onestà siano apprezzate...). Ma posso dire altrettanto sinceramente che quest'ultimo punto gioca un ruolo del tutto secondario; ci sono modi più rapidi per fare soldi; mi sono stati offerti lavori molto più immediati e remunerativi che, forse stupidamente, ho rifiutato per voler continuare a lavorare alla nostra attività. Insomma questo post non è una marchetta :D, o se lo è lo è in percentuale assolutamente trascurabile.

    Cosa può fare il mio tool per entrambi, o per chiunque stia ottimizzando una pagina per una data keyword?
    Può permettergli di stare tranquillo; di dedicarsi maggiornemente a sviluppare contenuti che siano interessanti senza stare troppo a pensare a quali e quante parole inserire in questa o in quella sezione, cosa che sarà "assistita" dal software.

    Rob


  • Moderatore

    Rob, vorresti appagare la mia malsana curiosità?

    Quando dici "siamo una piccola realtà...", cosa intendi di preciso? Siete una piccola startup? O lavorate all'interno di un contesto universitario?
    Quando dici "mi è stato chiesto di occuparmi..." ti riferisci a dei soci, un docente, un Venture Capitalist / Business Angel, etc... ?

    Ogni risposta è valida ovviamente, ti faccio i miei migliori auguri, e se potrò aiutarti in qualche misura lo farò.
    Ciao


  • User

    La risposta è nelle primissime righe di questo thread. Ma ti do qualche informazione in più. Siamo per lo più esuli universitari, ricercatori falliti, ronin della scienza : D insomma il concetto è questo. Personalmente ho abbandonato un dottorato in germania per ragioni personali che mi hanno costretto in italia. Altri due amici di vecchissima data si sono trovati anche loro dopo la laurea in situazioni analoghe e abbiamo deciso di lavorare per conto nostro e soprattutto a modo nostro. Non è stata una scelta obbligata, avevamo la possibilità di lavorare per qualche azienda più grande e affermata ma abbiamo preferito così. (In realtà ci sono anche altre persone esterne che gravitano attorno a noi tra grafici e collaboratori vari) Quindi facciamo piccole consulenze, realizziamo siti e applicazioni web per aziende e professionisti. Questo per i soldi. Per passione invece lavoriamo a progetti come questo. C'è sempre il sacro fuoco della ricerca che arde...non vincerò la medaglia fields di certo ma magari ne esce un bel thread : D


  • Community Manager

    La risposta di Enrico qui:

    Quanti ricordi... 🙂 Grazie a Giorgio per la segnalazione.

    Interessarsi un po' di IR non può che far bene, purché a mio parere non si creda di poter costruire qualcosa che emuli i calcoli fatti da Google, specie se si tratta di calcoli legati alla fase di ranking delle risorse.

    Il problema non è costituito solo dal fatto che le formule usate da Google sono sconosciute ma anche dal fatto che Google applica queste formule all'intero web. Per esempio, se io volessi calcolare un indice di vicinanza semantica tra due parole potrei sfruttare la loro co-occorrenza sul web. Quindi per fare questo calcolo ho bisogno di analizzare l'intero web e questa quantità di dati ce l'hanno solo Google, Bing e pochi altri.

    Anni fa le cose erano molto diverse e più semplici, oggi la complessità è enorme e il web è molto più grande. Quindi avere basi di IR può essere utile per capire cosa fa Google in certi contesti, ma nel momento in cui si cerca di emulare un sistema che è una scatola nera e chiusa, entriamo nel campo della pseudoscienza.


  • User

    Aggiornamento: dopo 2 settimane e qualche migliaio di linee di codice ho qualcosa in mano. Siamo ancora lontani ma la via sembra tracciata. Mi servirebbe un parere autorevole (il vostro) per quanto riguarda la "pesatura" delle varie componenti di una pagina web. Uno degli algoritmi implementati (BM25F per chi fosse interessato) necessita di sapere quanto "sono importanti" le varie parti una pagina. Le suddette parti in questa particolare implementazione sono Title, Description, H1, H2, URL, ALT-text, Body-text. (dove H1, H2 e ALT vanno intesi nel loro insieme, non singolarmente). Dunque mi servirebbe di sapere voi che "importanza" date a queste parti quando ottimizzate una pagina per una data keyword? Io ad esempio buttando lì numeri a spanne direi una cosa come

    TITLE 30%
    Description 10%
    URL 20%
    H1 20%
    H2 5%
    ALT 5%
    BODY 10%

    ma ripeto, sono numeri messi lì senza cognizione di causa. A voi la parola...qualsiasi parere è prezioso.

    Rob


  • User

    Per chi volesse ulteriori dettagli (che richiedono una qualche competenza matematica) c'è un articolo (che non posso linkare in pubblico, in caso chiedete in privato) sul sito della City University di Londra, in cui c'è una trattazione completa e chiara del background probabilistico su cui si basa la formulazione di BM25 e della sua recente evoluzione BM25F, pensata per il Web. Io ho implementato una variante leggermente diversa da quella presentata qui, ho introdotto una funzione di saturazione anche per la query e ho "ritarato" quella del documento. Sul finale dell'articolo c'è anche una lista di motori di ricerca opensource che implementano questi algoritmi (per lo più il BM25). A mio modesto parere è la fonte più chiara e completa sull'argomento reperibile in rete.


  • Moderatore

    @Bodhisattva said:

    Mi servirebbe un parere autorevole (il vostro) per quanto riguarda la "pesatura" delle varie componenti di una pagina web. Uno degli algoritmi implementati (BM25F per chi fosse interessato) necessita di sapere quanto "sono importanti" le varie parti una pagina.
    Non so quanto si possa considerare "autorevole" la mia opinione, ma ecco il mio contributo

    TITLE 40%
    BODY 25%
    URL 15%
    H1 10%
    H2 5%
    ALT 5%
    Description 0%

    La meta-descrizione è volutamente a zero: Google ha più volte rimarcato di non utilizzarlo come fattore di ranking (e studi indipendenti - per quanto opinabili - sembrano confermarlo).
    ALT e titoli vari sono spesso abusati ho l'impressione Google ne abbia di conseguenza ridotto il peso relativo.


  • Moderatore

    @Bodhisattva said:

    Per chi volesse ulteriori dettagli (che richiedono una qualche competenza matematica) c'è un articolo (che non posso linkare in pubblico, in caso chiedete in privato) sul sito della City University di Londra, in cui c'è una trattazione completa e chiara del background probabilistico su cui si basa la formulazione di BM25 e della sua recente evoluzione BM25F, pensata per il Web. Io ho implementato una variante leggermente diversa da quella presentata qui, ho introdotto una funzione di saturazione anche per la query e ho "ritarato" quella del documento. Sul finale dell'articolo c'è anche una lista di motori di ricerca opensource che implementano questi algoritmi (per lo più il BM25). A mio modesto parere è la fonte più chiara e completa sull'argomento reperibile in rete.
    Sono interessato

    P.S.. so che Lucene ha implementato BM25 per il suo full-text search


  • User

    (come mi fa giustamente notare Federico il documento in questione è banalmente linkato su wikipedia...io non ci avevo fatto caso, lo avevo raggiunto in altri modi. Se non lo posto è perché per i nuovi utenti è contrario alle regole del forum, non è questione di riservatezza : D)


  • Moderatore

    Puoi sempre mettere il link in maniera inattiva, cioè senza http e senza www.

    Ciao
    Enea


  • Moderatore

    Shhhh :lipssealed: ...ecco il link al "documento segreto":

    "The Probabilistic Relevance Framework: BM25 and Beyond"
    http://www.soi.city.ac.uk/~ser/papers/foundations_bm25_review.pdf