• Admin

    SEO, LSI (Latent Semantic Indexing), la Semantica e quello che prima dovresti sapere

    Purtroppo si stanno diffondendo molte informazioni che possono causare confusione in SEO poco esperti o neofiti e a quanto mi è capitato di notare dalle domande ricevute anche tra quelli un po' più attempati.

    Proprio per questo prima che qualcuno possa davvero credere alle favole metto insieme un po' di risorse (datate - perché datato è l'argomento - ma in Italia sembra in ascesa ora) per chiarirvi le idee ed evitarvi la spiacevole auto-convinzione che questa formula magica abbia un nome.

    Il documento assolutamente più leggibile in merito è il seguente:

    SVD and LSI Tutorial 1: Understanding SVD and LSI
    SVD and LSI Tutorial 4: Latent Semantic Indexing (LSI) How-to Calculations

    Altre risorse utile, ma di più difficile lettura sono le seguenti

    Nello specifico riporto anche il commento al punto 3 più rilevante di Bill Slawski:

    Please let's distance this post and this thread and my post and me from Latent Semantic Indexing. Latent Semantic Indexing was created in 1990 before there was a Web as a method of indexing a fixed database of documents where the contents of that corpus didn't change on a regular basis, and there weren't connections between pages like links that could be analyzed.

    And please distance yourself from the notion that Google has resorted to using latent semantic indexing when they have been exhibiting the use of many other semantic approaches that are more suited to the Web. There are lots of different types of semantics, semantic analysis, semantic approaches to attempting to understanding meaning, and so on. When someone uses the term "latent semantic indexing" or "LSI" to stand for all different types of semantics and semantic analysis, they aren't doing anyone in the search or SEO industry any favors, and end up making us look like the snake oil salesmen who have been touting the use of LSI tools to do keyword research.

    When Google acquired the company Applied Semantics, the technology they acquired had nothing to do with LSI.

    When Google developed the probabilistic Heirarchical Learner approach for Adsense, it had nothing to do with LSI.

    When Google published patents involving phrase-based indexing, those had nothing to do with LSI.

    My blog post, and the approach I described involving classification of queries, titles, snippets, URLS, and page elements has nothing to do with LSI.

    Rispetto ai documenti citati è passato molto tempo e come sapete le cose cambiano.

    Relativamente alla Semantica diciamo che in questo contesto c'è molta distanza dal Web Semantico che è un'altra cosa e dunque qui cercate di non fare collegamenti che hanno poco a che vedere con questo.

    Altre discussioni interessanti (possono dare molti spunti) che inoltre voglio linkare sono le seguenti:

    Spero di avervi fornito un po' di materiale di studio per farvi una idea quantomeno conscia di quello che leggete.


  • Admin

    Può anche essere interessante questo video per chi vuole capire un po' di più di infrastrutture e simili.


  • Admin

    Per chi fa invece leva sulla parola "semantic" ecco un po' cosa si intende in questo contesto, spiegato nel documento originale che trovate qui:
    Dumais, S. T., Furnas, G. W., Landauer, T. K., Deerwester, S. & Harshman, R.
    Using latent semantic analysis to improve access to textual information (1988)

    ](http://lsa.colorado.edu/papers/JASIS.lsi.90.pdf)Proceedings of the Conference on Human Factors in Computing Systems, CHI. 281-286

    By “semantic structure” we mean here only the correlation structure in the way in which individual words appear in documents;
    “semantic” implies only the fact that terms in a document may be taken as referents to the document itself or to its topic.”.


  • Community Manager

    @Juanin said:

    Purtroppo si stanno diffondendo molte informazioni che possono causare confusione in SEO poco esperti o neofiti e a quanto mi è capitato di notare dalle domande ricevute anche tra quelli un po' più attempati..

    Condivido assolutamente e in vari articoli ho letto che si da per certo l'uso da parte di Google di LSI, quando in realtà non è per niente così. Ho portato le mie idee e citazioni anche nei vari articoli che sono usciti e reputo interessante riportare una conversazione avuto sul sito di Francesco Margherita:

    Ciao Francesco,
    intervengo solo per portare più informazioni su quanto hai scritto, altrimenti sembra che io ti ho dato del cretino 😄

    Ci tengo a precisare che, se avrete la pazienza di leggere tutto, vi renderete conto come io ho detto a Francesco che le sue tecniche funzionano, ma poi al momento di fare divulgazione compie l’errore di dare il nome sbagliato alle cose. Che non c’entra con essere di frontiera o meno. Insomma, ho fatto un lungo discorso, se avete voglia di leggere tutto è spiegato nel dettaglio.

    E io spero che Francesco colga il mio appello nelle ultime righe di questo post 🙂

    Facciamo un pò di chiarezza:

    Sul gruppo, qui https://www.facebook.com/groups/fattidiseo/permalink/300659270118035/, è stato condiviso un articolo, che dice:

    Come fa Google ad orientarsi, operare distinzioni e, alla fine, capirci qualcosa? Beh, sostanzialmente tramite 2 algoritmi, che sono LDA ed LSI.

    Tu hai fatto vari esperimenti, che hanno portato dei risultati, però non è mai semplice attribuire causa-effetto e oggi fare IR su Google è da pazzi. Se giochiamo con le parole è ovvio che io posso dimostrare che applicando un concetto sulla Keyword Density (che è una bufala, primo uso dentro IBM anni 70) riesco a portare vantaggi SEO. Lo si può fare.

    Il problema, culturale, è se io poi ci scrivo un articolo e dico a tutti: ragazzi, la Keyword Density funziona.

    Cosa significa? Se qualcuno in Italia facesse una cosa del genere significherebbe soltanto che non ha la competenza in materia per capire il reale motivo per cui la pagina è salita. Perché sarebbe un abbaglio troppo grande. Non è come discutere se prendere una strada o l’altra, ma è non partire proprio.

    Tu infatti per i tuoi esperimenti dici:
    Oltre questo ho creato corrispondenze tra documenti esterni e il mio sito d'interesse tramite le co-occorrenze (anche questo punto mi pare non venga mai menzionato nell'espansione della query), piuttosto quindi ho fatto latent semantic indexing, che non c'entrerebbe niente con la semantica, se non fosse che è un algoritmo semantico.

    Sostieni di aver fatto Latent Semantic Indexing.

    Ora io non ho mai detto che Latent Semantic Indexing è una cavolata, che i concetti non siano interessanti, ho semplicemente detto che Google non la usa e che quindi state divulgando informazioni scorrette.

    Ho anche detto che quello che fai FUNZIONA, ma non per LSI.

    Secondo me, per quanto ho visto al tempo l’esperimento, e con tanta umiltà ho ipotizzato:
    Premesso che personalmente credo che il tuo sistema sia vincente perché:

    • il contenuto viene classificato correttamente tramite le co-occorenze perché identifichi bene il tema (l'espansione della query fa il suo compito, ma un minimo nell'aiutare il tema)
    • Google lo sceglie come contenuto originale per il mix da mostrare alle persone

    Per capire cosa intendo per mix, anche se non è proprio così, ti mostro un'immagine rappresentativa
    image

    Che poi, tutto sto casino con la semantica, ci porta a questi articoli: http://seogarden.net/posizionamento-motori-ricerca/item/229-posizionare-un-sito-con-la-semantica-ecco-come-ho-fatto.html

    Scrivere un articolo non è lavorare con la Semantica. Anche perché, dal mio punto di vista, una parola senza un contesto ha mille significati. Ma visto che qui parliamo di Google, associando Semantica a Google, entriamo in un mondo complesso che non si potrà mai tradurre nello scrivere un articolo. Anche perché, molte delle operazioni sulla semantica da parte di Google, stanno nel cercare di comprendere l’intento dell’utente, cosa realmente vuole, cosa sta cercando magari anche con la ricerca vocale nei vari dialetti.

    Detto questo, perché LSI non c’entra con la parte SEO di Google?

    E qui veniamo al nodo della questione. Mi citi Wikipedia.

    Alex nel gruppo mi chiede se ci sono esperimenti che dimostrano che LSI non c’entra con Google. Certo che ci sono.

    Ti cito anche io Wikipedia:
    http://en.wikipedia.org/wiki/Latent_semantic_indexing

    Non bisogna andare lontani. Guarda la storia (inizia dagli anni 60), leggi le criticità (scalabilità) e finisci sotto dove trovi un sacco di paper e utilizzi.

    Trovi Google da qualche parte? No? Nemmeno io.

    Forse si può applicare ad Adsense, forse a qualche cosa legata ai sinonimi, ma non assolutamente per quello che è stato ipotizzato e comunque da sola non serve a niente. E sicuramente dopo Caffeine, Panda, Hummingbird, la comprensione dei dialetti tramite il voice, il grande lavoro nel collezionare le entità e le loro relazioni...dire Google usa LSI e ora vediamo quindi come sfruttarla per la SEO è come dire ecco cosa è la Gravità, ora vediamo come andare sulla Luna.

    Inoltre, gli articoli che vi sto per linkare sono stati scritti da un professore e da uno studioso (http://www.miislita.com/presentations/egarcia.php) che ha un blog, il secondo che vi linkerò, che solo a leggere le categorie in cui sono inseriti gli articoli vi fa capire.

    Primo del professore: http://www.seo-blog.com/latent-semantic-index-lsi-myth.php

    Secondo, dello studioso: http://irthoughts.wordpress.com/2009/04/09/finally-seos-are-getting-the-lsi-myth/

    Ecco perché dico che per parlare di Semantica veramente per quello che è per Google, la Semantic Search, servono competenze di alto livello.

    Se noi non siamo riusciti nemmeno a capire una cosa come LSI, come pensiamo di parlare di Semantica? SEO Semantica?

    È palese la non padronanza dell'argomento...ma così rischiamo di farci prendere in giro, per questo poi nasce l'articolo di Francesco dove dice "che ridano pure".

    Io non condivido questo articolo Fra, dove tu scrivi: "due strade trovai nel bosco e io scelsi quella meno battuta, ed è per questo che sono diverso"

    E ancora quando spieghi quello che faccio:

    "La mia difficoltà nel discutere con lui di SEO è data dal suo ruolo di divulgatore da un lato, e dal mio di SEO di frontiera dall’altro. Siamo un po' agli antipodi, nel senso che lui è tenuto a percorrere e mostrare la disciplina ai SEO italiani in modo rigoroso, mentre io parto immediatamente dall’idea di non seguire le strade già battute, almeno non per forza."

    E qui che ti sbagli, ma ripeto, è una mia visione. Io non ti sto contestando quello che stai facendo, sto dicendo che è ottimo quello che fai, dico solo e semplicemente che non dai il nome corretto alle cose.

    E su questo Francesco, vorrei porti l’attenzione, perché mi sembra che ci sia molta confusione. Lo ripeto: funziona quello che fai, ma arrivi a delle conclusioni errate. Che producono, di riflesso, articoli e divulgazione sbagliata.

    Io non sono "solo" un divulgatore come dici tu, ma sono di frontiera molto più di quello che pensi, solo che quando si tratta di fare informazione corretta, bisogna che tutti diamo i nomi giusti alle cose.

    Detto questo, le cose che stai facendo, trovare strade non battute, noi le facciamo da una vita.

    Sul Forum GT, dal 2005 al 2011, siamo stati molto di frontiera, molto di più di quello che tu possa immaginare e stai facendo 🙂 Abbiamo smesso perché purtroppo la piattaforma del forum ha dei limiti, ma appena faremo l’upgrade, riprenderemo.

    Abbiamo creato tanti contest, molto popolari, andando a studiare come Google costruisce una ricerca da zero negli anni, che una delle cose più belle che si possa insegnare a un SEO. Parola sconosciuta > decine di migliaia di documenti prodotti, giorno dopo giorno come Google immagazzina e mostra i risultati.

    Pensa che i primi anni da Dublino ci seguivano e questo lo hanno detto pubblicamente davanti a tutto lo Staff del Forum GT durante un Convegno 😉

    Abbiamo creato un motore di ricerca con due algoritmi.
    Abbiamo creato una gara senza link.

    Potrei andare avanti all’infinito, perché nella nostra sezione Laboratorio SEO ci sono attualmente oltre 500 discussioni e di esperimenti condivisi e contest ne troviamo a decine con strade non battute, non 3-4 articoli.

    Io mi auguro che tu continui ad essere di Frontiera, così come continueremo ad esserlo noi…e mi auguro anche che tu senta dentro di te la volontà di comunicare le cose in modo corretto.


  • User Attivo

    Provo a dire anche io la mia...

    La questione tra SEO e semantica la vedo veramente molto semplice, ci sono tre player:
    -gli utenti
    -google
    -gli webmaster / seo

    Scopo di Google è di soddisfare le ricerche degli utenti. Scopo degli webmaster è quello di "catturare" gli utenti e generare entrate. Utenti e webmaster si suppone parlino la stessa lingua. Google no.

    Come può fare Google a fornire le migliori risposte a fronte di un'esigenza dell'utente? Deve imparare a comprendere la lingua utilizzata dagli utenti e dagli webmaster e può farlo tramite algoritmi applicati alla semantica.

    Agli utenti e ai webmaster viene insegnata la semantica alle scuole elementari. Google è alle elementari e sta cercando di studiare per avvicinarsi sempre di più al nostro modo di scrivere e di parlare. Noi siamo già capaci di scrivere frasi logiche e semanticamente corrette. E' lui che deve migliorare.

    Anche ammesso che noi SEO fossimo in grado di comprendere gli algoritmi applicati alla semantica che utilizza Google, molto probabilmente, alla fine, scopriremmo che il modo di scrivere premiato da Google è quello che utilizzeremmo con i nostri utenti se Google non esistesse.

    Concludendo, secondo me, il miglior modo di fare "SEO semantico" è quello di pensare agli utenti e di coprire tutte le esigenze correlate al servizio o al prodotto che vendiamo. Niente formule, solo tanta logica, immedesimazione e ricerche sul proprio targhet di utenti. E in tutto ciò non c'è nulla di nuovo.:!!


    PS: Poi esiste tutto un mondo di "informazioni strutturate" (per mezzo di tag html, markup particolare, ecc...). Ma questa io non la chiamerei semantica.


  • Admin

    Abbastanza utili le ulteriori conferme di un ex googler sul tema del poco lungimirante approccio della scrittura pensando solamente alle parole chiave http://www.reddit.com/r/bigseo/comments/2fw56u/i_am_fili_wiese_seo_consultant_searchbrotherscom