Salve a tutti. Dopo una lunga assenza torno a scrivere e ahimè, non porto buone notizie. Purtroppo il progetto in questione è fermo all'ultima volta che ho scritto qui. Da allora sono seguite una serie di vicende sia personali che professionali più o meno spiacevoli che mi hanno portato lontano dall'argomento del thread. Di fatto la realtà societaria in cui si inseriva questo progetto ha avuto difficoltà insormontabili e oggi in sostanza non esiste più.
Per un certo periodo una società di ricerca di Roma che si occupa di intelligenza artificiale si era interessata a questa idea e stavamo per raggiungere un accordo ma anche qui non se ne è fatto nulla.
Ad oggi resta solo l'idea: "capire come fa Google a valutare i fattori interni per il posizionamento". Credo ancora che sia un problema approcciabile e anche risolvibile, oggi tra l'altro possiedo competenze che un anno fa non avevo in ambito di machine learning e non nego che il tarlo di provare a smanettare un po' per vedere di farne qualcosa in quest'ambito mi è rimasto; ma come ho detto oggi sarebbe a scopo puramente ludico.
Non ho ancora chiaro quali saranno gli sviluppi, né quanto mi dedicherò alla cosa, in ogni caso vedrò di postare aggiornamenti di tanto in tanto
Per quanto riguarda i fattori esterni non credo sia facile venirne a capo; nei test che avevo fatto ne avevo tenuto conto nella misura in cui li avevo esclusi...ossia avevo fatto i test per chiavi di ricerca non competitive e per pagine che avevano ottenuto il posizionamento in larga parte grazie all'ottimizzazione interna. Onestamente al momento non saprei come muovermi per valutarli; sono talmente tanti e credo anche difficilmente "misurabili"; per non parlare della reperibilità dei dati.
Per quanto riguarda il coefficiente di Spearman è corretto quello che è stato detto; cioè non si accorge della "vicinanza" dei risultati ma solo del loro ordine. Valutando i risultati con questo parametro e considerando solo pagine con pochissimi link in ingresso (per escludere i fattori esterni appunto) l'algoritmo che avevo implementato aveva raggiunto su qualche centinaio di pagine di test una correlazione molto alta, mi pare attorno a 0.85. Per molte query riproduceva esattamente la serp di Google.
Ripeto l'idea di rimetterci mano mi stuzzica ancora, ma come ho detto è un periodo un po' delicato e molte cose stanno cambiando in fretta, quindi non so dire se e quando questo avverrà.