• Super User

    image


  • Community Manager

    Ciao Low,

    ti ringrazio moltissimo per le tue parole, mi hanno davvero colpito.

    Ho lasciato scorrere due giorni prima di risponderti perchè non riesco a stardi dietro (Information Retrieval, vector model, Booleano, espansione della query, Hilltop, Topic sensitive pagerank, Latent Semantic Indexing, TrustRank, Thesauri). Ho imparato più ora che negli ultimi dodici mesi.

    Abbiamo iniziato studiando molti argomenti, scrivendo articoli e aprendo argomenti per sensibilizzare i SEO.

    Stiamo partendo con i nuovi progetti si un semplice motore di ricerca e un robottino semanticamente intelligente.

    Dobbiamo studiare e applicarci, altrimenti impariamo poco.

    Partiremo anche con altri progetti-gare per studiare e restare aggiornati, volevo ringrarti perchè mi hai dato la possibilità di svegliarmi da questo status-fermo-apprendimento-stagnate per quanto riguarda i motori di ricerca.

    Sappi che hai spinto delle persone che stavano tirando, ora son cavoli amari 😄


  • User Attivo

    Davvero interessante questo topic: è da ieri che mi tiro giù e studio testi sull'ir e sto continuando anche in questo momento. L'unica cosa è che molti di quaesti testi passano dal banalissimo all'incomprensibile ( rapporti matematici con sommatorie di logaritmi e costanti dal significatomisterioso).
    Ho visto che c'è un'ampia varietà di sistemi usati e molte tecniche citate mi han fatto pensare a Google ma devo dire che purtroppo non ho trovato traccia di alcuni elementi ( come quello dei sinonimi ) che Low ha citato.
    Probabilmente sono andato a finire su testi troppo generici o, viceversa, in altri casi, troppo specifici.
    Le fonti citate in questo topic me le son già divorate ( almeno i pdf 😞 avete qualche altro testo da consigliarmi ?
    Grazie!


  • Super User

    @doopcircus said:

    Le fonti citate in questo topic me le son già divorate ( almeno i pdf 😞 avete qualche altro testo da consigliarmi ?
    Grazie!
    Stavo aspettando per non esagerare a documenti, ma vista la richiesta esplicita.
    Subito appena sfornati per te... 😄 :


    [url=http://www.unibg.it/dati/corsi/9007/9857-1-introduzione.pdf]Introduzione ai sistemi di IR e ai GIS


    [url=http://www.unibg.it/dati/corsi/9007/9858-2%20componenti%20di%20un%20sistema%20di%20IR.pdf]Componenti di un sistema di IR


    [url=http://www.unibg.it/dati/corsi/9007/9937-3%20indicizzazione.pdf]indicizzazione di documenti testuali


    [url=http://www.unibg.it/dati/corsi/9007/9959-4%20strutture%20dati%20per%20indici%20testuali.pdf]strutture dati per indici testuali


    [url=http://www.unibg.it/dati/corsi/9007/10089-5-modelli-base%20Booleano%20e%20vettoriale.pdf]modelli di base di sistemi di IR (Booleano e Vettoriale)


    [url=http://www.unibg.it/dati/corsi/9007/10162-6-linguaggi%20di%20query%20e%20modello-probabilistico.pdf]linguaggi base di query e algoritmi di valutazione,
    modello probabilistico di IR


    [url=http://www.unibg.it/dati/corsi/9007/10279-7-modelli%20fuzzy%20Booleani%20estesi.pdf]modello fuzzy Booleano esteso di IR


    [url=http://www.unibg.it/dati/corsi/9007/10324-8-modelli%20vettoriali%20estesi.pdf]modelli vettoriali estesi di IR


    [url=http://www.unibg.it/dati/corsi/9007/10425-9-meccanismi%20associativi.pdf]meccanismi associativi di retrieval


    [url=http://www.unibg.it/dati/corsi/9007/10522-10-espansione%20delle%20query.pdf]metodi di espansione delle query


    [url=http://www.unibg.it/dati/corsi/9007/10540-11%20IR%20di%20documenti%20strutturati.pdf]rappresentazione e retrieval di documenti strutturati


    [url=http://www.unibg.it/dati/corsi/9007/10613-12-IR%20su%20web.pdf]Information_Retrieval su Web


    [url=http://www.unibg.it/dati/corsi/9007/10656-13-valutazione%20di%20sistemi%20di%20IR.pdf]valutazione di sistemi di IR


    [url=http://www.unibg.it/dati/corsi/9007/10862-14-modelli%20di%20dati%20spaziali%20nei%20GIS.pdf]Modelli di dati Spaziali nei GIS


    [url=http://www.unibg.it/dati/corsi/9007/10971-15-rappresentazione%20di%20dati%20spaziali%20nei%20GIS.pdf]Database geografici e operazioni spaziali


    [url=http://www.unibg.it/dati/corsi/9007/11052-16-indici-spaziali.pdf]indici e metodi di accesso per dati spaziali


    Non fare indigestione.... 😉


  • User Attivo

    secondo me bisogna dosare le informazioni che stiamo apprendendo.
    troppa carne al fuoco....


  • User Attivo

    Si, infatti, ringrazio assai per i link che ho già setacciato in gran velocità, ma vorrei anche un minimo di chiave di lettura: non mi spaventano le informazione, ma la mole è elevata, e io vorrei cercare di fare uno studio Google oriented, cercare di capire veramente come funziona Google aldilà dello stranoto sistema del page ranking.
    Comunque grazie mille a Claudioweb per i link: sei una miniera di informazioni ! 😄


  • User Attivo

    niente: ho provato e riprovato a trovare un bandolo della matassa ma ancora non son riuscito a trovare in mezzo a quella giungla di appunti e file un testo vagamente divulgativo sui modelli di IR vettoriali, un pò alla stregua di quel che fa questo magnifico sito http://www.iprcom.com/papers/pagerank/ per il pagerank. Se avete consigli e suggerimenti ...
    Ormai Low mi ha messo la pulce nell'orecchio e continuo a fissare i miei paragrafi con aria interrogativa cercando di carpirne la relazione geometrica :lol:


  • Super User

  • User Attivo

    Belin, grazie mille low !
    Mi ci metto subito, se non ci capisco neanche qui vorrà dire che sono troppo stupido e andrò a restituire la mia laurea in economia 😄


  • User

    @LowLevel said:

    supercut
    Non importa se in questo momento non riuscite a comprendere le implicazioni positive e concrete degli studi che vi propongo, voi fatelo! Vi assicuro che via via che imparerete le basi, comprenderete quanto vi stavate limitando (citando Re Artù: "Non sapevo quanto la mia anima fosse vuota finchè non è stata riempita.").

    Ho molto poco tempo da dedicare ai forum, ultimamente. Ma se avete qualche domanda da fare, sono a vostra disposizione. 🙂

    Ottimo Low. Per quanto mi sia avvicinato da poco al settore SEO in modo unicamente amatoriale, sono già molto interessato alle questioni matematiche che hai esposto. Io sono un informatico, programmo e amo la matematica: i requisiti sono ok 😄

    Grazie Low.
    In ogni caso l'ambito SEO su certi forum sta diventando assai banale; si possono vedere domande del tipo: ma un link a google aumenta il PR?

    :yuppi: imparoimparoimparo...


  • Community Manager

    Piccolo OT che sono l'amministratore può fare 😄

    @Snix said:

    Ottimo Low. Per quanto mi sia avvicinato da poco al settore SEO in modo unicamente amatoriale, sono già molto interessato alle questioni matematiche che hai esposto. Io sono un informatico, programmo e amo la matematica: i requisiti sono ok 😄

    Bene, vedi di dare il tuo contributo, studia studia studia 😄

    @Snix said:

    Grazie Low.
    In ogni caso l'ambito SEO su certi forum sta diventando assai banale; si possono vedere domande del tipo: ma un link a google aumenta il PR?

    Non sono le domande che rovinano un Forum,** ma le risposte** 😉


  • User Attivo

    Allora, dopo essermi studiato diligentemente gli appunti suggeriti da Low mi son fatto qualche ideuccia. Posto che sono appunti IR generici e nontengono conto di tutti gli espedienti utilizzati dai vari motori , come il valore di linkaggio in entrata o, nel caso di Google, il Page Rank ( che per certi versi è quasi la stessa cosa ) ...
    Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :

    • wi,j = tfi,j/max tfi,j * log(D/dfi)*

    in cui il **primo valore **è la frequenza normalizzata del termine i nel documento j, cioè la quantità di volte in cui un particolare termine è presente rispetto alla quantità di volte in cui è presente il termine più frequente , mentre il secondo è il log della document inverse frequency, vale a dire che più il termine è raro nel totale dei documenti ( e più sono i documenti ) più il peso aumenta. E fin qui ...

    Questa formula viene definita come anti-spam grazie alla tecnica di normalizzazione della term frequency.
    E qui non capisco tanto: poniamo che io sia uno spammer incallito e che mi sia scelto, per emergere due o tre termini abbastanza specifici, a cui sia associato un log(D/dfi) piuttosto elevato: a quel punto posso fare un bel documento in cui, pari merito o quasi, le tre parole in questione ( magari variate se supponiamo che valga lo stemming ) in misura massiccia in modo da costituire o approssimarsi a maxtfi,j , anche considerando che in teoria un motore evoluto salta a piè pari tutte le stopwords.

    Beh, secondo questa formula ( e sempre ignorando link popularity e simili ) il mio documento dovrebbe riscuotere grande successo presso i motori di ricerca ...

    Poniamo poi che decidessi di buttarmi su un termine inflazionato, tipo "sex" : qualcosa mi dice che la dfi di quel termine non sia molto elevata ma, d'altra parte, siam tutti nella stessa barca. A quel punto faccio un testo in cui tfij e maxtfij coincidano , dando così un peso massimo rispetto a quella key. Beh, a quel punto, se il modello fosse veramente questo, io spammer non avrei grossi problemi.

    Chiaro che una volta che entrano in gioco elementi come link popularity e page rank il mio giochino potrbbe ritorcersi contro di me. Ma allora potrei fare un documento molto corto , tanto si parla di misurazioni relative, un trafiletto di 150 parole a piè di pagine. Poi mi sbatto per fare, che ne so, in flash un bel videogiochino erotico ( ci tengo a dire che non è il mio caso perchè è un campo che non mi interessa, ehm, almeno non in termini di SEO :), è solo la chiave più difficile al mondo ), in modo da essere linkato da qualche bel sitino con PR stratosferico dedicato magari alle risorse free. Beh, sarebbe tutto un pò troppo facile, no ?

    Io credo che i modelli reali siano ben più complessi e, beh, low , quando ti va, son pronto per un altra sfliza di appunti 😄


  • Super User

    @doopcircus said:

    Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :

    • wi,j = tfi,j/max tfi,j * log(D/dfi)*

    doopcircus, la tua analisi è tutta corretta, ma vieni tratto in inganno dalla funzione di quella formula.

    Non si tratta di "quello finale". Quella formula determina il peso di un singolo termine all'interno di un documento, non il peso globale di un documento rispetto alla query dell'utente, nemmeno nel caso in cui la query dovesse coincidere con il termine.

    Successivamente, l'insieme dei pesi di tutti i termini di un documento stabilisce la posizione di quel documento all'interno di uno spazio multidimensionale.

    In fase di ricerca, il motore calcola la "distanza" tra ciascun documento e la query e riporta i risultati in ordine di "distanza" minore (se si escludono gli altri fattori di ranking, ovviamente).

    "distanza" è volutamente virgolettato in quanto in realtà si usa una misurazione differente. Ma il concetto generale rimane quello della vicinanza geometrica. Nei testi che ti ho segnalato trovi anche la formula per calcolare tali "distanze".


  • User Attivo

    è una specie di battaglia navale.
    l'insieme dei pesi dei termini di una pagina definisce il peso totale della pagina.
    questa viene posta in uno spazio....dipenderà dallarelazione query/termini pagine a definire il risultato.

    comunque sia, uno spammer incrementando i valori di ogni parola quindi del documento stesso riuscirebbe a salire sulle serp...saranno gli algoritmi di Pr o di antispam ad abbassare il punteggio della pagina...


  • Super User

    Si, è proprio a causa dello spam e del caos presente sul web che l'analisi del contenuto non è sufficiente ad ottenere risultati validi.

    Quindi si fanno intervenire altri fattori, come per esempio la LP, il PR, il Trust, punteggi HUB ed AUTHORITY ecc. che modificano i punteggi ottenuti con l'analisi del contenuto fatta a query time.


  • User Attivo

    saranno gli algoritmi di Pr o di antispam

    Per i filtri di antispam, beh dipende:
    se un testo è calcolato bene è quasi impossibile beccarlo, certo poi ci son quelli sulla struttura i link ecc..

    Più che altro è il TR a fregare lo spam (ma anche i siti seri) e la "distribuzione degli accessi" (vd. tanti post vecchi su html.it).

    Per cui, di per se, fare un testo ottimizzato usando queste strategie serve a ben poco se non è accorpato da n altri fattori.

    Morale della favola questo "sistema" può si avvicinare semanticamente (o statisticamente forse è meglio dire) una pagina ad una query ma se non abbiamo sufficiente valore servirà a ben poco.

    Magari Low ha qualche altro documento da farci leggere in proposito ? 😛


  • User Attivo

    @beke said:

    ... altri fattori, come per esempio la LP, il PR, il Trust, punteggi HUB ed AUTHORITY ecc. che modificano i punteggi ottenuti con l'analisi del contenuto fatta a query time.

    LP,Trust, punteggi HUB e Authority... ehm ...
    Scusate l'ignoranza ma son novizio.
    Mi spiegate meglio ( ne so qualcosa ma non in termini "scientifici" )

    Comunue l'idea che mi son fatto è che , alla fine dei conti, l'ordine di ranking di google sia ,data una presenza "qualificata" delle keyword nel titolo ( possibilmente da sole e attaccate ) e un'adeguata ( ma non eccessiva ) ponderazione delle parole, all'80% dipendente dal page rank: magari dico una scemata ma questo è quello che mi è sembrato di notare empiricamente, facendo cioè il percorso inverso a quello indicato da Low e che giustamente lui definisce errato.

    Proprio perchè penso abbia completamente ragione sto cercando di adottare il più possibile anche l'approccio dal basso diciamo, cioè lo studio del ragionamento dell' IR ( in attesa delle nuove dritte suggerite da Low) ma comunque l'impressione empirica e quindi potenzialmente basata su un enorme equivoco è che, alla fine dei conti, il PR conta quasi più della ponderazione dei termini ....

    Detto questo siete anche liberi di spararmi

    😄


  • Bannato User Attivo

    uaahh!!! ragazzi il cervello sta incominciando a fumare :fumato:
    Anche se non posto (ci pensa mio fratello Fabio) molto leggo cmq con attenzione, resto in attesa di contromosse di Low, e perchè no, della cara Mamilù che vedo che con disegnini vari ci sa fare.


  • Super User

    @doopcircus said:

    Comunue l'idea che mi son fatto è che , alla fine dei conti, l'ordine di ranking di google sia ,data una presenza "qualificata" delle keyword nel titolo ( possibilmente da sole e attaccate ) e un'adeguata ( ma non eccessiva ) ponderazione delle parole, all'80% dipendente dal page rank:

    Nessun motore di ricerca sarebbe così folle da assegnare ad un solo elemento (qualunque esso sia) l'80% del peso dei ranking. Sarebbe un suicidio, tutti i webmaster e SEO si butterebbero a conseguire solo quell'elemento, nella massima quantità possibile, e la qualità dei risultati delle ricerche sarebbe terribile.

    facendo cioè il percorso inverso a quello indicato da Low e che giustamente lui definisce errato.

    Urge una precisazione: quel percorso non è errato ed io non potrei mai affermare una cosa simile.

    In un sistema in cui gli algoritmi sono segreti e si conosce solo il loro prodotto finale, le tecniche per risalire dal prodotto ai criteri che lo determinano sono indispensabili e devono per forza di cose fondarsi su test e soluzioni empiriche.

    Tuttavia, (e questo è ciò che io tento di evidenziare) per riuscire a determinare anche empiricamente attraverso la semplice osservazione che Google utilizza un tipo di espansione delle query sfruttando tecniche di clustering che fanno uso di analisi globali del corpus, bisogna comunque sapere cosa è l'espansione delle query, che cosa si intende per clustering, che tipo di analisi globali esistono, e così via.

    In poche parole: non si può riconoscere qualcosa di cui si ignora l'esistenza.

    La differenza tra il modus operandi che finora i SEO hanno attuato e l'approccio che io ho consigliato di adottare è culturale: se non si è medici, non si può diagnosticare una malattia osservando dei sintomi.

    Partire dai sintomi per risalire alla causa non è un percorso sbagliato. Però è pericoloso farlo se non si possiede almeno un'infarinatura di cultura medica.


  • User Attivo

    Provo ammirazione per quanto scrive LowLevel.

    Per esempio la frase:

    "Tanto per fare un esempio: la maggior parte dei SEO ha un approccio keyword-based al posizionamento e l'ottimizzazione del testo di un documento viene vista solo in funzione dell'inserimento delle keyword nel testo/codice."

    e', come dire, fotografare ed esporre il vero. Che piaccia o meno.
    Cosi' a seguire.

    Per amor di sincerita' sono fin invidioso di questo suo post, visto che concordo mi chiedo, perche' non l'ho scritto io? Semplice, perche' per quanto sei bravo c'e' sempre qualcuno piu' bravo di te.


    Per quanto invece riguarda i "vecchi" documenti di IR vale la pena capirli e studiarli attentamente per poi non usarli, per esempio:

    doc 1: auto (3 times), car (1 times), insurance (3 times)
    doc 2: auto (1 times), car (2 times), insurance (4 times)
    doc 3: auto (2 times), car (3 times), insurance (0 times)

    Rank 1: Doc 2 = 0.8729
    Rank 2: Doc 1 = 0.6882
    Rank 3: Doc 3 = 0

    As we can see, for the query "insurance"

    Document 2 is very relevant.
    Document 1 is less relevant.
    Document 3 is completely irrelevant.


    Come e' scritta e composta una pagina e' irrilevante al fine del sort. Che sia presente o meno un termine della query nel testo conta poco o nulla.

    Che sia presente o meno un termine della query nei link che puntano ad una data pagina o sito conta poco o nulla.

    Il Tr, per fare un esempio e' vecchio, prima ancora che prenda piede.

    Sono tutti paliativi messi online anno per anno per gabbare seo, utenti ed azionisti.


    Un sito, un libro, un' opera d'arte e' fatta di elementi (se unici) che non possono e devono dipendere od essere giudicati per cio' che sono ma da cio' che emanano-rappresentano.

    Se cerco soldati devo trovare: si sta come d'autunno sugli alberi le foglie, e viceversa.

    Anche se soldati non e' presente nella frase, anche se quella pagina non fosse lincata per la key soldati.

    E' dall'analisi costante di cosa vuole e ricerca l'utente che si capisce giorno per giorno, in modo dinamico, cosa conta e cosa no, e' il valore del sito che ci permette di primeggiare nelle serp, e' dal computo di chi non ci linca e non da chi ci linca che si calcola il peso del sito, e' solo grazie ad un sistema ibrido uomo&macchina che vengono espresse le migliori serp, almeno fin tanto che l'ai non sara' a livello del test di turing.


    Studiare l'ir e' importantissimo, ma se intendiamo come ir le vecchie formule, e' importantissimo al fine di bannarle.

    Non lo credete. Sono pronto a mettere in discussione qualsiasi formula di Ir che vorrete sottopormi.

    Mi parlate di analisi locale, dimostrero' che non conta nulla rispetto a correlazioni esterne. Discutiamo di correlazioni e dipendenze esterne, allora contrappongo semantica ed originalita' del testo.

    Ampio contenuto originale? Cosa conta rispetto anzianita' del sito...


    Ma allora e' la somma di tanti algoritmi che determina il valore di un sito, di una pagina...
    No non lo e'.

    Lo pensavo fino a poco tempo fa, e lo pensavo da anni, influenzato e condizionato perche' gli stessi motori ritenevano che questo ragionamento fosse basilare, essenziale, fosse corretto.

    E' vero: "Gli è tutto sbagliato, tutto da rifare..." (Bartali) ma LowLevel non immagini quanto.