Sviluppo tool basato su algoritmi IR

bodhisattva

Sviluppo tool basato su algoritmi IR

Salve a tutti; sono nuovo da queste parti, e tolto il post di presentazione questo è il mio primo intervento.
Dunque, tanto per cominciare io NON sono un SEO. Probabilmente lo sarò ma attualmente non lo sono; però sono un matematico; e faccio parte di una piccola società di consulenza informatica e sviluppo web. Ora, la suddetta società mi ha affidato un progetto abbastanza ambizioso; vale a dire sviluppare un software che fornisca degli "score" di pertinenza tra una query e un documento, basandosi sui principali algoritmi di information retrieval. E l'idea è di utilizzare in ambito seo questo software.
Mi sono documentato un po' e ho notato che a parte i ragazzi di Moz nessuno in tutto il mondo ha mai realizzato nulla di simile e di certo non in italia; mi pare di aver visto insomma che nessuno abbia mai cercato di avere un approccio veramente scientifico all'ottimizzazione on-page. Il massimo che si riesce a trovare è qualche banale (quanto inutile) calcolatore di keyword density. So invece che ci sono dei matematici che hanno realizzato per Moz un tool di scoring basato su LDA, Latent Dirichlet Allocation, ma anche in questo caso si tratta di un oggetto abbastanza semplificato che lavora al più su parole singole. Io sto lavorando da un lato su modelli deterministici, vale a dire i vari modelli tipo "tf*idf" come il modello vettoriale o l'Okapi BM25, dall'altro su modelli semantici probabilistici come la Latent Dirichlet Allocation e la Probabilistic Latent Semantic Analysis. Lo scopo è realizzare un tool dall'utilizzo molto semplice, cui l'operatore passi in input una query e un documento e che restituisca in output degli score di pertinenza del documento con la query, score diversi, uno per modello utilizzato, quindi uno score per il modello vettoriale uno per il BM25 e poi ancora per LDA e PLSA ed LSA. Lo scopo è quello usuale di utilizzare questi score per ottimizzare pagine web, confrontando gli score della propria pagina e vedere se sono "in linea" con i dati statistici forniti dagli score delle pagine posizionate. E` nota la forte correlazione tra il posizionamento e il grado di affinità quantificato da questi algoritmi.
Ciò detto, il mio parere personale è che Google non ne utilizzi nessuno di questi algoritmi =_=, ma che ne utilizzi piuttosto diversi contemporaneamente; tolti ovviamente i fattori esterni di ranking come la popolarità, l'anzianità, i link in ingresso ecc ecc
Per capirci, tutti sappiamo che google "capisce" di cosa stiamo parlando quando digitiamo una query; ora per farlo dovrà necessariamente utilizzare un algoritmo di topic modeling come LDA; del resto però sappiamo anche che una volta capito di che stiamo parlando Google darà un ranking maggiore ai documenti che ad esempio avranno corrispondenze esatte della query; bene questo LDA non è in grado di farlo; quindi la mia idea personale è che Google utilizzi un algoritmo semantico per fare una prima scrematura che poi verrà affinata da un algoritmo deterministico come il BM25 per restituire la serp finale. Questa è la ragione per cui sto implementando diversi sistemi di score i cui dati andranno incrociati dall'operatore per avere un'analisi completa.

Spiegato questo vengo al punto della questione, non siamo certi di voler rendere pubblico e gratuito questo lavoro; da un lato forniremmo uno strumento ai concorrenti che sono già molti e agguerriti, dall'altro però potremmo catalizzare l'attenzione dei SEO interessati ad un approccio più matematico all'ottimizzazione on-page, sappiamo tutti l'importanza di proporrecontenuti originali e interessanti, beh, da che ho visto questo sarebbe un lavoro unico al mondo. Quindi vi chiedo molto semplicemente:

voi che ne pensate?

Se un sito offrisse un tool di questo tipo gratuitamente, semplice da usare e corredato della giusta documentazione trovereste la cosa interessante? Credete che un approccio simile possa fornire un reale contributo alla causa del SEO o no?

Fatemi sapere

R.

federico.sasso

Ciao Bodhisattva, e benvenuto nel Forum GT

Non mi definisco strettamente un SEO, e non sono nemmeno un matematico purtroppo.
Capisco le basi dell'Information Retrieval e non vado oltre, non ne sono affatto esperto. Le mie conoscenze di matematica, statistica e probabilistica sono sicuramente appannate dal tempo... perdonerai pertanto le inevitabili inesattezze nella mia risposta, e ti prego nel caso di erroi gravi volerle correggere
Mi faccio tuttavia avanti sia per darti il benvenuto, sia perché la tua cordiale richiesta merita una risposta.

@Bodhisattva said:

Mi sono documentato un po' e ho notato che a parte i ragazzi di Moz nessuno in tutto il mondo ha mai realizzato nulla di simile ...
Se ben ricordo i ragazzi di (seo)Moz - credo il matematico sia uno solo, Pete - hanno costruito un analizzatore basato proprio su TFIDF
Moz ha a sua disposizione un database di milioni di pagine web (utile per algoritmi come TFIDF ove si paragona un documento rispetto a un set statisticamente significativo).

Oltre a loro in Germania sono spuntati diversi tool basati su WDFIDF (e la sua variante WDFP*IDF) spinto da Karl Kratz che ha rispolverato il lavoro di un matematico Tedesco degli anni '70
https://www.online-marketing.net/termgewichtung/

Come sei sicuramente meglio equipaggiato di me a comprendere, anche WDFIDF è poco più della keyphrase density.
Il germanico entusiasmo si è forse leggermente raffreddato dopo che la Tedesca SearchMetrics (una dei più attivi propositori della formula magica) ha cercato di valutare la correlazione tra ranking e WDFIDF con uno studio formale:"SEO Ranking Factors – Rank Correlation 2013 - Google USA". Con loro stessa sorpresa è saltato fuori che la correlazione fosse praticamente inesistente.

D'altronde gli anni '70 sono passati da 40 anni e l'IR ne ha fatti di passi avanti nel frattempo, questo ci fa capire la distanza enorme tra la cultura SEO e lo stato dell'arte negli algoritmi dei motori di ricerca e text mining in generale.

Penso lo studio di SearchMetrics abbia lacune, omissioni e un titolo fuorviante, ma penso anche WDFIDF sia ancora lontana dagli algoritmi di data-mining dei motori di ricerca.
Per chi non è addentro a certe finezze: WDFIDF non ha il concetto di vocabolario linguistico, non ha idea della distribuzione statistica delle singole parole del vocabolario adattato per una specifica lingua - tenta invero di sopperire soppesando l'importanza relativa delle parole rispetto a un insieme di documenti; nemmeno ha alcuna capacità di tenere a conto lo stemming - ossia le permutazioni delle parole, es. singolari/plurali.

@Bodhisattva said:

E` nota la forte correlazione tra il posizionamento e il grado di affinità quantificato da questi algoritmi.
Ti prego di voler condividere documentazione in proposito, non sono a conoscenza di studi a dimostrare una forte correlazione con uno solo degli algoritmi citati.

Il problema principale è che per il motore di ricerca di riferimento - Google ha circa il 97% di share di mercato in Italia, il peso dell'on-site è probabilmente inferiore a metà nell'insieme di fattori presi in considerazione per il posizionamento.
Sebbene l'off-site sia probabilmente in fase di ridimensionamento, ancora ha la parte del leone.
Gli studio di correlazione finora pubblicati da Moz e SearchMetrics (quelli più noti, altri non ne ricordo) oltre a essere spesso opinabili nella metodologia non hanno nemmeno tentato di segmentare i campioni utilizzati in base alla presenza o assenza preponderante di link inbound.

@Bodhisattva said:

Spiegato questo vengo al punto della questione, non siamo certi di voler rendere pubblico e gratuito questo lavoro; da un lato forniremmo uno strumento ai concorrenti che sono già molti e agguerriti, dall'altro però potremmo catalizzare l'attenzione dei SEO interessati ad un approccio più matematico all'ottimizzazione on-page, sappiamo tutti l'importanza di proporrecontenuti originali e interessanti, beh, da che ho visto questo sarebbe un lavoro unico al mondo. Quindi vi chiedo molto semplicemente:

voi che ne pensate?

Se un sito offrisse un tool di questo tipo gratuitamente, semplice da usare e corredato della giusta documentazione trovereste la cosa interessante? Credete che un approccio simile possa fornire un reale contributo alla causa del SEO o no?
Personalmente passione, interesse e curiosità mi farebbero gridare un hurrah.
Cerco però di fornirti anche idee e prospettive diverse.

Se vuoi la mia umilissima opinione, in Italia - e più o meno anche nel resto del mondo - a parte pochi casi non vi è ancora una preparazione culturale diffusa da parte dei SEO per un approccio scientifico.
La preponderanza dei fattori off-site negli algoritmi di Google rende ancora più difficile valutare la bonta del responso di un tool del genere.
L'accoglienza da parte del pubblico SEO - gratis o a pagamento - sarebbe immagino soggetta molto pragmaticamente alla bontà del risultato fornito.

Se vuoi essere sicuro di offrire risultati diagnostiche veritiere che si avvicinino a quanto fornito da Google, dovresti - una volta avete almento l'implementazione di una prova di concetto funzionante, ossia a costi di sviluppo già almeno in buona parte affrontati - stimarne la bontà.

Come stimare da parte tua la bontà dello strumento?

Uno studio rigoroso di comparazione rispetto al posizionamento su Google richiederebbe lo scraping di migliaia di pagine, risolvendo problemi di geo-localizzazione e misure antiscraping e ToS di Google. Ti consiglio nel caso di filtrare tenendo solo siti senza link noti (usando API a pagamento di link intelligence provider, ve ne sono tanti: Moz, ahrefs, MajesticSEO, Raven, Sixtris, SeoKicks, Blekko...)

Ancora, la preponderanza del peso off-line attuale potrebbe essere un ostacolo all'adozione: dovrete rifarvi dei costi di sviluppo, ma un utente sarebbe propenso a pagare costi di licenza e/o fee d'uso solo se avesse certezza della bontà del risultato, e se il costo d'esercizio fosse inferiore allo sforzo di fare attività off-line per avere risultati nel posizionamento organico.

Non vorrei suonare negativo, non è nelle mie intenzioni.
Per innovare occorre investire. E ci vuole coraggio.

Tieni anche conto che in Germania Karl Kratz usando la sua influenza ha causato un indotto economico non da poco tra tool a pagamento, seminari, post, etc... (non dico abbia intascato lui, dico che la sua spinta ha avuto anche impatti economici). Non so se però spingere un KD++ sia stato un reale contributo alla causa

Ti faccio i migliori auguri per la nuova avventura, e spero di poterti risentire presto sul forum GT
Federico

bodhisattva

Ciao Federico, intanto ti ringrazio per l'entusiasmo e la quantità di informazioni, è esattamente il genere di risposta in cui speravo. Allora; tanto per iniziare non avevo idea dell'esistenza di questo lavoro di Karl Kratz (non conoscevo nemmeno lui) e ti ringrazio per l'informazione. Forse non ne avevo avuto notizia perché non si riesce a trovare una singola parola in inglese sull'argomento; ho visto che questo modello che ha utilizzato non è altro che una delle tante istanze del modello vettoriale, in cui ha scelto una particolare normalizzazione dei vettori e ha optato per una crescita logaritmica invece che lineare (o asintotica come per il BM25); non ho ben capito cosa rappresenti la "p" ma mi è sembrato di intuire dagli sproloqui di google translator che si tratti solo di un fattore di "pesatura" che non aggiunge molto in sostanza al classico schema tfidf. In ogni caso ti sarei molto grato se mi fornissi qualche indicazione bibliografica sull'argomento (in inglese possibilmente :°°); io ho trovato solo qualche vago resoconto su altrettanto vaghi blog di seo tedeschi. In altre parole wdfidf non è altro che il modello vettoriale con "settaggi particolari". Ho controllato anche i fattori di ranking 2013 di searchmetrics che mi hai segnalato; in effetti però non vedo tra i parametri gli score di questi algoritmi; nel senso che non sembra siano proprio stati presi in considerazione nell'analisi; le uniche considerazioni a livello di uso delle keyword on-page sono sulla presenza/assenza delle parole chiave nei vari elementi domain/title/h1/h2/body. Per quanto riguarda invece le mie fonti; purtroppo non sono in possesso di veri studi accademici; ho fatto riferimento per lo più a statistiche analoghe a questa. Ad esempio nei ranking factors di seomoz 2013 i fattori tf*idf e lo score del loro topic modeling sono all'apice dei fattori relativi all'uso delle keyword on-page. Ho trovato diversi riscontri analoghi online e tra le altre cose ho verificato io stesso (su un campione esiguo in effetti, però selezionato esattamente come hai proposto tu; ossia privo di qualsiasi ottimizzazione esterna).

Per il resto comunque si impone un chiarimento. Quando dico "forte correlazione" intendo sempre nell'ambito dell'ottimizzazione on-page ...tanto per essere chiari; qui nessuno sta ipotizzando l'esistenza di una qualche formula magica; tutti sappiamo che l'ottimizzazione interna è condizione necessaria ma di certo non sufficiente (se non in casi di bassa competitività) per il posizionamento. In altre parole, se dobbiamo aprire una falegnameria a ravenna è probabile che riusciamo a piazzarci in prima pagina con "falegnameria ravenna" limitandoci all'ottimizzazione on-page; se però decidiamo di fare concorrenza a microsoft possiamo riunire pure il progetto manhattan al completo, lavorare per anni alla migliore ottimizzazione interna possibile e ugualmente non andremo da nessuna parte. La popolarità e il link building sono indubbiamente molto più rilevanti di uno score vettoriale o semantico, nel senso che la loro correlazione con il posizionamento è proprio in un altro ordine di grandezza...quindi ecco, quando dico "forte correlazione tra il posizionamento e il grado di affinità quantificato da questi algoritmi" intendo sempre "a parità di fattori esterni" lo davo per scontato, ma è bene essere chiari, ripeto, non esistono formule magiche, quindi, per concludere, un tool come quello che ho descritto non andrebbe utilizzato con l'idea di fregare chi spende milioni in pubblicità semplicemente utilizzando un programmino online; andrebbe pensato invece come qualcosa che può aiutare ad esser certi di produrre materiale ottimizzato al meglio, in grado di competere sotto quest'aspetto con i siti in prima pagina e in qualche caso anche di posizionarsi senza aiuti esterni. Del resto ci sono migliaia di piccole e medie imprese che vivono grazie a un posizionamento su google dovuto solo all'ottimizzazione on-page.

Per quanto riguarda invece i costi di sviluppo e di testing ti tranquillizzo subito Guarda siamo una piccola realtà fatta per lo più di ragazzi che come me hanno competenze scientifiche di varia natura e una certa passione per il web, quindi i costi di sviluppo si riducono sostanzialmente a nutrire me per qualche mese e sostentarmi finché il tutto non sarà implementato e testato.
Ti ringrazio ancora e spero in ulteriori riscontri e confronti.

Rob

federico.sasso

Ciao Roberto,
ho letto con piacere la tua risposta.

Sì, la P di WDFPIDF a quanto ho potuto comprendere dovrebbe essere una semplice costante di normalizzazione (o simile).
No mi spiace, non ho trovato materiale in Inglese su WDF*IDF, solo in Tedesco. Neanch'io parlo Tedesco; lo sto studiando per averne un'infarinatura ma il mio livello è ancora tanto basso e devo usare la combinata di Google Translate, Bing Translator e Yandex Translate verso l'Inglese per comprendere il materiale.
Mi sono fatto l'idea il mondo SEO Tedesco sia un ecosistema abbastanza chiuso: nei forum e community in Inglese è raro trovare Tedeschi attivi, e vi è una insolità quantità di produttori locali di strumenti SEO, specie on-line (per esempio, Sistrix e SeoKicks sono entrambe Tedesche).

Lo studio di SearchMetrics pecca di numerose ingenuità, in particolare nella distinzione tra causa ed effetto (anche se lo concede in parte nelle note introduttive). Come hai anche tu fatto notare, è piuttosto parco di particolari sulla metodologia adottata (se ben ricordo dovrebbe essere possibile scaricare i raw data).

Lo studio dei Mozzer dice qualcosina in più (in particolare qui http://moz.com/blog/determining-relevance-how-similarity-is-scored ) ma anch'esso per la parte on-page è in a mio avviso inficiato dal non filtrare tenendo solo i siti privi di link esterni e dal limitare lo studio alle prime 50 posizioni (con solo segnali on-site su keyphrase competitive finire in quinta pagina può essere considerato un discreto risultato nella mia esperienza!).. anche se è un miglioramento rispetto al 2009 dove tenevano in considerazione solo le prime 25 posizioni.
Nel post anzi link-ato vedrai le correlazioni rilevate per i vari document model sono basse rispetto ad altri parametri on-page di diversa natura.

Anche Moz non spiega troppo la metodologia usata. Se ho capito bene come dataset di riferimento verso cui computare le distanze vettoriali in TF*IDF usa l'insieme delle 50 pagine esaminate (non lo dice, lo inferisco); se così fosse sarebbe una misura falsata che porterebbe a valori più bassi rispetto a un dataset statisticamente rappresentativo.
Per il Language Model non dice purtroppo che dati di statistiche linguistiche ha usato (P.S.: se sei a conoscenza di base dati di pubblico dominio o comunque con licenza utilizzabile senza troppe restrizioni, per le lingue più comuni, ti prego volermelo segnalare, tempo fa le mie ricerche erano state infruttuose).

A presto

bodhisattva

Se ho ben interpretato lo studio che hai postato direi che è ideato un po' malino; cioè serve a dimostrare cose piuttosto ovvie; se ho capito bene lui fissa una query, poi prende 500 pagine di cui 50 in serp e 450 random. Ordina queste 500 pagine in base alla page authority da un lato e in base allo score dell'algoritmo semantico dall'altro. Poi conta la percentuale delle prime 50 voci di queste liste ordinate che sono effettivamente presenti in serp e si accorge che nell'ordinamento basato su PA la percentuale è analoga a quella del "gruppo di controllo" formato da 50 voci random tra le 500 mentre nell'ordinamento basato sullo score semantico è 10 volte più alta. Ma direi che questo era abbastanza prevedibile..o meglio dice esattamente quello che abbiamo osservato in questo post. Per quale ragione la semplice PA dovrebbe fornire un parametro di pertinenza rispetto ad una query arbitraria? La PA è solo relativa al numero di link inbound...e qui torniamo al punto, ossia che secondo me google utilizza un qualche algoritmo semantico (tipo LDA LSA ecc.) per fare una prima scrematura e capire quali pagine sono rilevanti e quali no per una data query, i.e. la relevance dell'articolo che hai postato; a questo punto sforna proprio il ranking finale e lo ottiene principalmente tramite la PA e, aggiungo io, secondariamente anche tramite algoritmi di similarity un po' più "rozzi" dal punto di vista semantico ma più attenti alla presenza di corrispondenze esatte come appunto i vari modelli vettoriali tf*idf o il BM25.

Dico questo perché sappiamo bene tutti che la presenza di una corrispondenza esatta di una query nel title o nel dominio ha il suo peso; peso senza dubbio relativo; perché chiaramente una pagina che ha "solo" una corrispondenza generica in title e nulla in URL se ha una PA alta batterà la mia pagina senza link in entrata ma con title e url ottimizzati; ma di certo non troveremo in prima pagina title che non c'entrano nulla con la query anche se hanno una PA alta, cosa che stando solo agli score semantici sarebbe possibile...si può parlare in modo estremamente pertinente del "topic latente" di una query evitando accuratamente di usare qualsiasi parola della query. Google lo capisce e ti posiziona, ma ti posiziona meglio se usi proprio la query =_=

Tra l'altro questo non contraddice affatto la "scarsa" correlazione degli score col posizionamento, perché è chiaro che la PA pesa molto di più...quel grafico sulla correlazione andrebbe letto così "se per assurdo dovessi fare a meno di PA o di score per posizionarmi, mi posizionerei meglio se sacrificassi un po' di score in favore di PA, fermo restando che se lo sacrificassi tutto non mi posizionerei" (mentre invece per una query non competitiva è vero il contrario, posso posizionarmi solo con lo score...)

Tu secondo me hai centrato esattamente il punto della questione prima dicendo che andrebbero condotti esperimenti con pagine con bassa PA (o nulla). La pensiamo esattamente allo stesso modo. Sono certo che così (o più in generale utilizzando pagine con PA simile, non necessariamente bassa) troveremmo che gli score degli algoritmi IR hanno una correlazione quasi perfetta col ranking. Il punto è che un esperimento simile purtroppo non si può fare...perché semplicemente non troveremo mai una serp che contempli solo pagine senza authority...quello che ho fatto io è un po' diverso; mi sono andato a scegliere un centinaio di pagine, tutte posizionate, ognuna per la sua keyword, e ognuna con PA prossima a zero. In questo modo si può ottenere un dato statistico sui valori di questi score per "una generica pagina X priva di authority posizionata per una keyword Y"; secondo me è l'unico approccio possibile per cercare di avere un range di riferimento "ideale" di quegli score. L'idea è che aggiungere poi authority alle suddette pagine non possa che rafforzarne la stabilità nel posizionamento. E` un modo in sostanza per sapere su che range di score devo attestarmi quando ottimizzo una pagina, a prescindere dalla keyword che sto spingendo o dal link building che voglio fare in seguito.

In definitiva lo scopo di un qualsiasi strumento come quello che sto sviluppando è solo quello di fare le cose nel miglior modo possibile dal punto di vista dell'ottimizzazione interna per poi potersene dimenticare e dedicarsi con più tranquillità alla costruzione dell'authority nei mesi (e anni..) successivi. Niente più di questo. Tra l'altro il fatto che la PA sia molto più importante di questi score a pensarci è una benedizione; e l'idea che sottende è geniale. Se google si basasse solo sugli score non riuscirei a trovare una pagina di wikipedia che magari sarebbe battuta da una qualsiasi pagina piena di stupidaggini che però ha title e url ben ottimizzati...

Mi scuso per la prolissità, quando parlo di qualcosa che mi interessa divento verboso. Ti ringrazio ancora per il tuo preziosissimo feedback, ti invito a darmi quanti più pareri e idee ti sia possibile. Vale ovviamente per chiunque voglia dire la sua; qualsiasi parere è fondamentale; soprattutto da chi di SEO ne sa infinitamente più di me. A presto!

Rob

federico.sasso

Ciao, solo un rapido pensiero mattutino prima di andare al lavoro:
@Bodhisattva said:

...non troveremo mai una serp che contempli solo pagine senza authority...

Oh sì, in tutte le SERP intorno allla pagina 10

giorgiotave

Ciao Bodhisattva e benvenuto nel forum gt!

Bello il tuo nick, mi fai riaffiorare tutti i mesi passati in Thailandia degli ultimi 10 anni della mia vita. Ma non sono così vecchio, ho 31 anni

E con il tuo post mi hai fatto ricordare di una "piccola" cosa successa in queste meravigliose pagine del Forum GT, nel 2005! Un certo LowLevel, che oggi si è "ritirato" su Google Plus (Enrico Altavilla), aprì un thread storico dal titolo "Gli è tutto sbagliato, tutto da rifare..." (Bartali).

Per tutti noi rappresentò un momento di crescita veramente importante. Incominciammo a studiare seriamente i motori di ricerca, gli algoritmi, l'IR e tutto quanto.

Personalmente, se devo identificare un momento in cui la community Italiana è cresciuta di molto è stato quello e per me Enrico rappresenta la persona più influente ieri e oggi.

Ti consiglio di leggere quel thread.

Ci portò, per gioco, a costruire un motore di ricerca chiamato Teecno.

Oggi credo e sostengo che sia impossibile fare IR su Google perché nemmeno loro sarebbero in grado di farlo. I fattori in gioco sono diventati tantissimi e gli algoritmi in apprendimento automatico stanno diventando sempre più influenti. Senza considerare che il concetto di query di 10 anni fa non esiste praticamente più, oggi per una singola query entrano in gioco le entità, le categorizzazioni, le personalizzazioni.

Spero che Enrico possa darti una visione migliore della mia per indirizzarti verso la giusta strada.

Lo pingo su Google Plus

Giorgio

P.s. ottimi consigli Federico!

bodhisattva

Salve Giorgio, sarà un caso o forse no ma è stato proprio Enrico Altavilla a portarmi (involontariamente) a scrivere su queste pagine... Ho capito che prima di procedere mi serviva un qualche parere illuminato e mi è capitato di chiedere consiglio a lui sul suo blog, poi seguendo un po' le sue orme virtuali ho scoperto che la comunità di riferimento per questi argomenti in italia è questa. E` interessante che tu abbia citato proprio lui; leggerò quel thread con entusiasmo.

ps: <offtopic> Per quanto riguarda il mio nick temo ti deluderò un po'; nel mio caso (per chi mi conosce) "bodhisattva" ha una enoooorme componente ironica...:D nel senso che sono probabilmente la persona più lontana al mondo dall'illuminazione e dal silenzio della mente. In compenso adoro la figura del santone in generale; ma più il tipo predicatore a las vegas vestito da elvis che l'asceta in Tibet. </offtopic>

@Federico: :°D

gianmaria.allisiardi

Spunto davvero molto interessante.

Sostanzialmente condivido tutto quello che ha detto Federico Sasso.

Se riportiamo tutto in ambito culinario, anche avendo la lista degli ingredienti e la ricetta esatta, la torta che fa mia moglie non è mai uguale a quella di mia madre. Non mi sbilancio per ovvie ragioni, nel dire quale sia la migliore, ma non sono uguali.

Ora a noi (mi includo già nel progetto) non solo manca la lista completa degli ingredienti (alcuni li intuiamo), ma cosa piu' importante, ignoriamo completamente come questi si uniscono e lavorino in simbiosi per incidere sul risultato finale.

Inoltre nel progetto si partirebbe già a priori nell'escludere tutto cio' che è considerato "off site", e probabilmente anche cio' che è in-site ma al di fuori del documento in analisi.

Senza contare che la ricetta di fatto cambia di tanto in tanto, e non si sa neppure quando, quindi dovremo fare migliaia di torte al giorno, assaggiarle tutte e ritarare l'algoritmo prima che la ricetta cambi nuovamente.

Con tutti questi distinguo la possibilità di ottenere un risultato simile a quello di google è di fatto impossibile.

Tutto cio' potrebbe comunque essere interessante, fermo restando l'impossibilità di trovare una stretta correlazione tra i due rank.

Una cosa che ho trovato molto interessante e potrebbe ispirare qualche idea innovativa se applicata ad un progetto come questo potrebbe essere quella che viene definita "genetic programming" qui un semplice esempio chiarificatore: rogeralsing.com/2008/12/07/genetic-programming-evolution-of-mona-lisa/

fratac

Premetto che tutti i parametri presi in considerazione da Google, o almeno quelli che dichiara, e tutti i suoi algoritmi mi hanno proprio rotto le scatole.
Inoltre considero la SEO una parte integrante di un progetto web, come lo sono grafica, accessibilità, user experience, programmazione, hostibng, etc etc...
Tornando all'esempio di Gianmaria direi che da molti anni ormai sviluppo progetti web come mia suocera fa le torte: come mi viene con quello che ho.
Lei quasi sempre non segue le dosi ma valuta gli ingredienti (come mi viene) e personalizza il gusto con quello che ha a disposizione: yogurt, pinoli, mandorle, etc. (quello che ho).
Certo avere uno strumento per sapere se la torta verrà bene prima di averla cotta e decorata sarebbe fantastico perchè non sempre basta l'esperienza.
Direi quindi che un tool del genere come descritto da Bodhisattva sono anni che vorrei realizzarlo ma il tempo che ho non è sufficiente, mentre invece sarei felice di collaborare per realizzarlo.

overclokk

Ciao Bodhisattva e benvenuto sul forum GT,
io vorrei rompere un po' le uova nel paniere in modo costruttivo

Perchè dovrei usare il tuo tool?
Quali benefici ne ottengo?

Poi vorrei solo evidenziare anche una cosa, come sappiamo google ha una marea di algoritmi ognuno dedicato ad una funzione, di cui quelli dedicati alla comprensione del contesto non sono per il posizionamento ma per archiviare meglio il contenuto trovato (correggetemi pure se mi sbaglio :-)).

Quindi qual'è l'obbiettivo di google? Fornire il miglior risultato possibile all'utente che effettua una ricerca.

Come ottiene questo?

Io credo che lo ottenga appunto avendo messo in ordine nel suo archivio tutte queste informazioni, poi ovviamente usa anche l'archivio dei fattori esterni, frulla tutto e il risultato più rilevante verrà mostrato in serp (ovviamente ho semplificato molto).

Quindi torno alle prime domande, quali benefici ottengo con il tuo tool?
A cosa mi serve lo score elaborato?

Ciao
Enea

federico.sasso

<ot>
@Giorgio grazie per aver linkato il vecchio thread di Enrico. Sapevo era un vecchio frequentatore del Forum GT, ma il suo "Jè tutto sbagliato" m'era ignoto.
L'ho letto con piacere, e con esso un bel po' di discussioni successive. Mi ha stupito vedere la positiva reazione dei membri del Forum buttatisi a capofitto nel ristudiare le basi di materie sicuramente ostiche per chi non le ha mai affrontate nel proprio corso di studi.
Nemmeno sapevo del progetto Teecno; peccato avervi scoperto ben dopo, è un'avventura mi sarebbe piaciuto vivere.
</ot>

bodhisattva

@Giorgio
Grazie alla mia insonnia ho appena avuto tempo di leggere tutto il post di LowLevel...è stato molto interessante. Leggendolo continuavo a dimenticare che fosse un post di 8 anni fa ed ero sempre lì lì per commentare. In effetti l'analogia con questo thread è forte...sono lieto di aver "rispolverato" una vecchia gloria. Chissà che non continui a dare frutti anche 8 anni dopo.

@Gianmaria
Il paragone culinario è quantomai azzeccato. Ricordo che fu il primo paragone che usò l'insegnante in un corso di algoritmi e strutture dati che seguii all'università, la ricetta di cucina è il modo migliore per immaginare un algoritmo. E tu hai perfettamente ragione; non possiamo conoscere né gli ingredienti né i "passi" della ricetta. Però questo direi che è nell'ordine delle cose; sono le regole del gioco cui abbiamo scelto di giocare...se avessimo accesso agli algoritmi di Google non esisterebbe nemmeno questo forum e non saremmo qui a discutere (e smetterebbe presto di esistere anche Google). Posso risonderti però che non serve avere la formula della coca cola per produrre la pepsi...o i vari cloni che in definitiva sono abbastanza simili. Gli algoritmi di google muovono il mondo e l'economia; modificarli significa modificare il pil delle nazioni...probabilmente quegli algoritmi saranno custoditi in un bunker 10 metri sotto il deserto del Nevada con un piccolo esercito a presidiare la zona. Questo per dire che siamo solo poveri peccatori che sperano in un posto in paradiso (in prima pagina :D) ma non ci è dato conoscere i piani di Dio (Google)...questo però non vuol dire che non possiamo farcene un'idea anche piuttosto precisa. Se non potessimo farlo non esisterebbe il mestiere di SEO; quindi lo scopo è affinare quella precisione. Il modo? Questo è complicato.
Tanto per cominciare bisogna chiarire ancora lo scopo del gioco: non si tratta di trovare una formula magica che risolva in modo algoritmico il problema del posizionamento; questo è ridicolo solo pensarlo. Come hai detto tu partiamo subito con l'escludere tutto quello che è "off-site", e già così tagliamo fuori i fattori di ranking maggiori. Il punto però è che l'ottimizzazione è una pratica settoriale; e i due settori "interno" ed "esterno" sono completamente indipendenti, non si disturbano a vicenda e ci si occupa indipendentemente prima dell'uno poi dell'altro. Quello esterno pesa di più, ma questo non vuol dire che quello interno non sia necessario. Ecco, il mio scopo quindi è fare chiarezza una volta per tutte sulle centinaia di discussioni a proposito dell'IR che si leggono in giro e fornire un tool che sfrutti effettivamente gli algoritmi noti di information retrieval di cui si parla spesso nelle comunità seo ma che poi in definitiva sono argomenti appannaggio di chi ha un po' di competenze di settore per andarsi a leggere i testi e gli articoli accademici in cui sono riportati. Per il resto; pensare di approcciare in modo algoritmico la costruzione dell'authority di una pagina è fuori discussione, è come pensare di trovare una "formula per diventare famosi" o una "formula per dare un valido contributo all'umanità", non credo che abbiamo queste mire.
Come si fa a capire se funziona? Questo è semplice, basta stabilire una correlazione statistica tra il posizionamento e l'appartenenza a un certo range di questi score. Ma attenzione, per avere dati interessanti bisogna testare solo pagine che abbiano fattori di posizionamento esterno simili (possibilmente nulli). Sono certo che con queste ipotesi la correlazione sarà molto alta; infatti non capisco perché negli studi proposti da semoz e dalle altre comunità i fattori di correlazioni continuino a venir calcolati sulle "prime n pagine"...così è come voler trovare una correlazione tra la velocità massima delle automobili e le dimensioni degli sportelli...-.- mi pare ovvio che sarà bassa -.- se invece fissiamo la cilindrata e i cavalli scommetto che le linee aerodinamiche di sportelli più sottili avranno una correlazione molto più alta.
ps: appena posso guarderò l'articolo del tuo link.

@FraTac
L'esperienza può tra le altre cose sopperire benissimo all'uso di algoritmi simili. Se hai l'"occhio" giusto e quel sesto senso che ti fa scrivere naturalmente le cose come piacciono a google sei a cavallo e non ti serve nient'altro. Diciamo che un programmino simile potrebbe al più darti un riscontro delle tue intuizioni. Io ad esempio non credo di avere occhio in quel senso; è da poco tempo che mi occupo di seo e per uno come può fare la differenza.
In ogni caso sei il benvenuto per qualsiasi supporto tu voglia dare; magari tra qualche tempo se la nostra "politica" resta (come io vorrei) di procedere in ambito opensource potrei chiedere a qualche volenteroso di queste parti di partecipare al beta testing.

@Enea
Non chiederti cosa il mio tool può fare per te, chiediti invece cosa tu puoi fare per il mio tool!! (cit.)

Ovviamente scherzo, ora ti rispondo seriamente e ahimè, sinceramente:

Cosa può fare il mio tool per te?
Direi che dipende, dalla tua esperienza e dalla tua bravura come SEO; in generale ti rispondo che se hai molta esperienza e sei molto bravo può fare poco, non ti farà posizionare pagine per keyword competitive se non gli associ le altre pratiche di posizionamento usuali, può darti un supporto per l'ottimizzazione interna e in alcuni casi fare anche la differenza; la verità è che per risponderti con precisione devo prima svilupparlo e raccogliere dati.
Direi che se la mia intuizione è giusta lo scenario è il seguente: se di tuo sei già molto bravo nella migliore delle ipotesi può farti "limare" qui e lì l'ottimizzazione del testo on-page e guadagnare qualche posizione; e sicuramente può darti un riscontro oggettivo e quantificabile per essere certo che il tuo lavoro rientri in un "range ottimale" che sei certo che piace a google. Se invece sei scarso può fare la differenza. Tutto ciò per chiavi non competitive. Per quelle competitive il contributo che può dare è sensibilmente ridimensionato per tutti i discorsi già fatti.
Poi magari la mia intuizione è pessimistica e invece questi score saranno determinanti in scenari più generali, staremo a vedere.

Cosa può fare il mio tool per me?
Per me lo scenario è più roseo che per te perché tanto per cominciare io ho un'esperienza molto ridotta quindi l'aiuto che può darmi è più significativo, mi è stato chiesto di occuparmi di posizionamento e lo faccio partendo da quello che conosco, la matematica. Poi ci sarà tempo e modo per chiedere a voi come fare per risolvere le altre questioni seo...:D (ho già aperto un paio di thread in proposito) Poi semplicemente mi piace l'idea di poter dare un contributo (di qualsiasi entità sia) in base alle mie competenze; quindi molto semplicemente mi diverte approfondire queste questioni e sviluppare software in qualche modo innovativo.
Ah poi dimenticavo, in una qualche misura mi darà visibilità; perché di fatto non esiste nulla di simile a parte i lavori (a pagamento) di seomoz ma anche quelli sono abbastanza diversi; il che significa che contribuirà a farmi lavorare nell'ambito che mi piace...(spero che sincerità e onestà siano apprezzate...). Ma posso dire altrettanto sinceramente che quest'ultimo punto gioca un ruolo del tutto secondario; ci sono modi più rapidi per fare soldi; mi sono stati offerti lavori molto più immediati e remunerativi che, forse stupidamente, ho rifiutato per voler continuare a lavorare alla nostra attività. Insomma questo post non è una marchetta :D, o se lo è lo è in percentuale assolutamente trascurabile.

Cosa può fare il mio tool per entrambi, o per chiunque stia ottimizzando una pagina per una data keyword?
Può permettergli di stare tranquillo; di dedicarsi maggiornemente a sviluppare contenuti che siano interessanti senza stare troppo a pensare a quali e quante parole inserire in questa o in quella sezione, cosa che sarà "assistita" dal software.

Rob

federico.sasso

Rob, vorresti appagare la mia malsana curiosità?

Quando dici "siamo una piccola realtà...", cosa intendi di preciso? Siete una piccola startup? O lavorate all'interno di un contesto universitario?
Quando dici "mi è stato chiesto di occuparmi..." ti riferisci a dei soci, un docente, un Venture Capitalist / Business Angel, etc... ?

Ogni risposta è valida ovviamente, ti faccio i miei migliori auguri, e se potrò aiutarti in qualche misura lo farò.
Ciao

bodhisattva

La risposta è nelle primissime righe di questo thread. Ma ti do qualche informazione in più. Siamo per lo più esuli universitari, ricercatori falliti, ronin della scienza : D insomma il concetto è questo. Personalmente ho abbandonato un dottorato in germania per ragioni personali che mi hanno costretto in italia. Altri due amici di vecchissima data si sono trovati anche loro dopo la laurea in situazioni analoghe e abbiamo deciso di lavorare per conto nostro e soprattutto a modo nostro. Non è stata una scelta obbligata, avevamo la possibilità di lavorare per qualche azienda più grande e affermata ma abbiamo preferito così. (In realtà ci sono anche altre persone esterne che gravitano attorno a noi tra grafici e collaboratori vari) Quindi facciamo piccole consulenze, realizziamo siti e applicazioni web per aziende e professionisti. Questo per i soldi. Per passione invece lavoriamo a progetti come questo. C'è sempre il sacro fuoco della ricerca che arde...non vincerò la medaglia fields di certo ma magari ne esce un bel thread : D

giorgiotave

La risposta di Enrico qui:

Quanti ricordi... Grazie a Giorgio per la segnalazione.

Interessarsi un po' di IR non può che far bene, purché a mio parere non si creda di poter costruire qualcosa che emuli i calcoli fatti da Google, specie se si tratta di calcoli legati alla fase di ranking delle risorse.

Il problema non è costituito solo dal fatto che le formule usate da Google sono sconosciute ma anche dal fatto che Google applica queste formule all'intero web. Per esempio, se io volessi calcolare un indice di vicinanza semantica tra due parole potrei sfruttare la loro co-occorrenza sul web. Quindi per fare questo calcolo ho bisogno di analizzare l'intero web e questa quantità di dati ce l'hanno solo Google, Bing e pochi altri.

Anni fa le cose erano molto diverse e più semplici, oggi la complessità è enorme e il web è molto più grande. Quindi avere basi di IR può essere utile per capire cosa fa Google in certi contesti, ma nel momento in cui si cerca di emulare un sistema che è una scatola nera e chiusa, entriamo nel campo della pseudoscienza.

bodhisattva

Aggiornamento: dopo 2 settimane e qualche migliaio di linee di codice ho qualcosa in mano. Siamo ancora lontani ma la via sembra tracciata. Mi servirebbe un parere autorevole (il vostro) per quanto riguarda la "pesatura" delle varie componenti di una pagina web. Uno degli algoritmi implementati (BM25F per chi fosse interessato) necessita di sapere quanto "sono importanti" le varie parti una pagina. Le suddette parti in questa particolare implementazione sono Title, Description, H1, H2, URL, ALT-text, Body-text. (dove H1, H2 e ALT vanno intesi nel loro insieme, non singolarmente). Dunque mi servirebbe di sapere voi che "importanza" date a queste parti quando ottimizzate una pagina per una data keyword? Io ad esempio buttando lì numeri a spanne direi una cosa come

TITLE 30%
Description 10%
URL 20%
H1 20%
H2 5%
ALT 5%
BODY 10%

ma ripeto, sono numeri messi lì senza cognizione di causa. A voi la parola...qualsiasi parere è prezioso.

Rob

bodhisattva

Per chi volesse ulteriori dettagli (che richiedono una qualche competenza matematica) c'è un articolo (che non posso linkare in pubblico, in caso chiedete in privato) sul sito della City University di Londra, in cui c'è una trattazione completa e chiara del background probabilistico su cui si basa la formulazione di BM25 e della sua recente evoluzione BM25F, pensata per il Web. Io ho implementato una variante leggermente diversa da quella presentata qui, ho introdotto una funzione di saturazione anche per la query e ho "ritarato" quella del documento. Sul finale dell'articolo c'è anche una lista di motori di ricerca opensource che implementano questi algoritmi (per lo più il BM25). A mio modesto parere è la fonte più chiara e completa sull'argomento reperibile in rete.

federico.sasso

@Bodhisattva said:

Mi servirebbe un parere autorevole (il vostro) per quanto riguarda la "pesatura" delle varie componenti di una pagina web. Uno degli algoritmi implementati (BM25F per chi fosse interessato) necessita di sapere quanto "sono importanti" le varie parti una pagina.
Non so quanto si possa considerare "autorevole" la mia opinione, ma ecco il mio contributo

TITLE 40%
BODY 25%
URL 15%
H1 10%
H2 5%
ALT 5%
Description 0%

La meta-descrizione è volutamente a zero: Google ha più volte rimarcato di non utilizzarlo come fattore di ranking (e studi indipendenti - per quanto opinabili - sembrano confermarlo).
ALT e titoli vari sono spesso abusati ho l'impressione Google ne abbia di conseguenza ridotto il peso relativo.

federico.sasso

@Bodhisattva said:

Per chi volesse ulteriori dettagli (che richiedono una qualche competenza matematica) c'è un articolo (che non posso linkare in pubblico, in caso chiedete in privato) sul sito della City University di Londra, in cui c'è una trattazione completa e chiara del background probabilistico su cui si basa la formulazione di BM25 e della sua recente evoluzione BM25F, pensata per il Web. Io ho implementato una variante leggermente diversa da quella presentata qui, ho introdotto una funzione di saturazione anche per la query e ho "ritarato" quella del documento. Sul finale dell'articolo c'è anche una lista di motori di ricerca opensource che implementano questi algoritmi (per lo più il BM25). A mio modesto parere è la fonte più chiara e completa sull'argomento reperibile in rete.
Sono interessato

P.S.. so che Lucene ha implementato BM25 per il suo full-text search