Analisi semantica delle Keyword

an

Mi sposto in questo forum dove possiamo parlare più per esteso.
I tuoi domini di conoscenza non sono reti semantiche perchè le reti semantiche hanno la proprietà di avere i nodi collegati fra loro.

Le reti di cui parlavo nell'articolo sono reti di apprendimento in quanto riescono ad aggiungere nuovi nodi ed archi modificando i pesi di questi relazioni. Un esempio di di sistemi di questo tipo sono le reti neurali.

Mi sono letto i post precedenti e ho testato il tuo esempio che trovo molto interessante.
Se volessi applicare una rete semantica al tuo programma punterei su una "definitional network", una rete che considera le relazioni IS-A; tanto per capirci "configurare server dhcp" e "configuare server linux" sono entrambi figli di "configurazione server".

Parlando del tuo sistema in particolare ho notato una cosa forse marginale ma che ho trovato interessante: tutti i sistemi che conosco implementano il concetto di "stop words", cioè si da per scontato che articoli, preposizioni etc. non diano significato aggiunto al testo e quindi vengono eliminati. Tu invece li mantieni anche se con peso marginale; in effetti penso che sia una scelta giusta, perchè a google fa differenza se li scrivi o no in una ricerca.

Buon esempio del fatto che a volte è utile provare a fare una cosa senza voler a tutti i costi seguire la strada già asfaltata.

paocavo

@an said:

I tuoi domini di conoscenza non sono reti semantiche perchè le reti semantiche hanno la proprietà di avere i nodi collegati fra loro.

Le reti di cui parlavo nell'articolo sono reti di apprendimento in quanto riescono ad aggiungere nuovi nodi ed archi modificando i pesi di questi relazioni. Un esempio di di sistemi di questo tipo sono le reti neurali.

Probabilmente non sono stato chiaro nel post precedente, per rete semantica non intendo i domini di conoscenza ma la procedura (ricorsiva) descritta per la determinazione delle "categorie" e sotto-categorie genera, credo, una rete semantica. Ad esempio:
Cat 1 livello: Linux
Cat 2 livello: Wireless Linux
Cat 3 livello: configurare Scheda Wireless Linux
Cat 3 livello: Scheda Wireless D-Link Linux

Mi sono letto i post precedenti e ho testato il tuo esempio che trovo molto interessante.
Se volessi applicare una rete semantica al tuo programma punterei su una "definitional network", ...

...
Buon esempio del fatto che a volte è utile provare a fare una cosa senza voler a tutti i costi seguire la strada già asfaltata.

Infatti lo sforzo iniziale è stato proprio quello di pensare in prima persona senza googlare sull'argomento, dopodichè mi sto mettedo a studiare che cosa dicono i grandi pensatori dell'intelligenza artificiale o ... come diceva Alan M. Turing: "Intelligenza Meccanica"

paocavo

@paocavo said:

-Data la totalità, ad una certo istante di tempo, delle keyphrases (KP) ricevute:
...

si determina l'insieme "related" di KP che contengono la KW

All'interno di ciascun insieme related le KP sono caratterizzate anche dalla loro molteplicità KPM (numero di volte che si è ricevuta la medesima Keyphrase)

Per ogni insieme Related esiste la KP con molteplicità massima (la definiamo MUKP=Most Used Keyprase)
...

Scusate se mi quoto da solo ma ritengo che gli insiemi "related" ottenuti (o, come li dice P. Norvig, "bags of words" ...col senno di poi), una volta ordinati per KPM decrescente, possono essere delle ottime fonti di keyword da utilizzare per i propri annunci ADWords.
L'utilità di tali keyword è dimostrata dal fatto che sono quelle effettivamente utilizzate dagli stessi utenti del sito e non quelle "pensate" dal webmaster o da altri sistemi (es. https://adwords.google.com/select/KeywordToolExternal).
E' vero che se il webmaster è anche un buon SEO allora le cose dovrebbero coincidere ma...spesso si riscontrano delle sorprese e si scopre che siamo indicizzati bene anche per altre keyword a cui non avevamo posto attenzione o per una semplice combinazione di fattori..arcani!

paocavo

...lo studio continua...
memorizzando tutti i risultati in un database si ottengono report molto interessanti come quello che si evince dalla seguente query:


SELECT keyword, keyphrase, hits, first_time, last_time
FROM category INNER JOIN BagOfWords ON category.id_category = BagOfWords.id_category
ORDER BY hits DESC;

dove la tabella delle categorie, ovviamente, è ottenuta automaticamente
sulla base della analisi suddetta...

czero

Scusate, mi intrometto un secondo per esprimere un mio dubbio sull'argomento (che mi interessa particolarmente, anche se sicuramente non sono cosi' esperto come voi e molto probabilmente sto' per dire un mucchio di fesserie)...

Il mio dubbio, ma magari dico un'idiozia, è dovuto al fatto che nella nostra lingua abbiamo parole con significato differente a seconda del contesto, e quindi o a priori si conosce il contesto in cui analizzare i termini, o altrimenti come si può generalizzare l'analisi?
Negli esempi che avete riportato, i test sono fatti nel contesto dell'informatica (o chiamiamolo anche macro-contesto) e questo risolve già l'incognita... ma immaginate l'analisi della frase:

"installare una rete"

Senza conoscerne il contesto potrebbe essere sia in ambito informatico, che nel'ambito fai-da-te (esempio idiota, ma era per farmi capire)...

Quindi come si puo' analizzare questa soluzione senza saperne il contesto?

Ok, ho delirato a sufficienza... scusatemi e perdonate l'intrusione.....

paocavo

@CZero said:

Negli esempi che avete riportato, i test sono fatti nel contesto dell'informatica (o chiamiamolo anche macro-contesto) e questo risolve già l'incognita... ma immaginate l'analisi della frase:

"installare una rete"
Senza conoscerne il contesto potrebbe essere sia in ambito informatico, che nel'ambito fai-da-te (esempio idiota, ma era per farmi capire)...
Quindi come si puo' analizzare questa soluzione senza saperne il contesto?

Ciao CZero!
concordo con quanto hai detto ma se rileggi il primo post di questo 3D l'obiettivo principale di studio è l'analisi delle keyword per giungere ad un (determinato) sito web quindi è implicita la restrizione ad un determinato "macro-contesto". Ad ogni modo l'algoritmo proposto può essere esteso (come è stato accennato per il discorso sulle sotto-categorie) per la determinazione di reti semantiche.
Probabilmente il fatto che una determinata frase può significare differenti cose vorrà dire che siamo davanti ad un nodo di una struttura ad albero

paocavo

@CZero said:

Scusate, mi intrometto un secondo per esprimere un mio dubbio sull'argomento (che mi interessa particolarmente, anche se sicuramente non sono cosi' esperto come voi e molto probabilmente sto' per dire un mucchio di fesserie)...

Ma non sei l'autore del sito dedicato agli [url=http://www.relwords.com]strumenti semantici per WebMasters? Complimenti per la modestia!!

czero

...ecco vedi, che mi ero perso per strada un pezzo

Il sitoche dici è il mio, un progetto nato un po' di mesi fa sul quale sto' lavorando (a rilento perche' ho poco tempo)... pero' il mio approccio è stato quello di partire da una base dati e analizzare dei dati che ricevo... il probema grosso di questi dati è individuare gli errori (parole scritte male e simili)... e cmq, per ora ho deciso di crearmi dei dizionari da cui partire, per poi passare alle categorie/contesti e quindi all'analisi...

Sono giunto alla concllusione che senza un bel dizionario non si va da nessuna parte!

agoago

E' esattamente come dite.

Il primo passo e' di raggruppare in sottocategorie un insieme ben determinanto.

Il secondo sarebbe quello di raggruppare in sottocategorie insieni generici, ed in questo caso entrano in gioco sinonimi, contrari, semantica e via dicendo.

Diciamo che siamo nella prima fase, che di suo e' gia' abbastanza complicata, appena superato questo primo difficile lavoro dovremo affrontare il secondo aspetto, che si preannuncia ben peggiore!

czero

ci sarebbe anche una cosa che non va trascurata troppo... e cioe' il db, perche', per esperienza, ti ritrovi a manipolare in un attimo centinaia di migliaia di record... e questo nn è bello per le prestazioni...
Uno sbaglio che feci all'inizio fu di sottovalutare questo aspetto e cambiare poi in corsa la struttura è stato un bel casino :S

paocavo

@CZero said:

ci sarebbe anche una cosa che non va trascurata troppo... e cioe' il db, perche', per esperienza, ti ritrovi a manipolare in un attimo centinaia di migliaia di record... e questo nn è bello per le prestazioni...
Uno sbaglio che feci all'inizio fu di sottovalutare questo aspetto e cambiare poi in corsa la struttura è stato un bel casino :S

Infatti...è fondamentale una progettazione ad hoc del modello relazionale che sta alla base del DB. Per far ciò è però necessario aver fatto prima per bene l'analisi funzionale (la sequenza delle "operazioni") del problema...spesso facciamo il contrario ..

paocavo

@agoago said:

...
Il secondo sarebbe quello di raggruppare in sottocategorie insiemi generici, ed in questo caso entrano in gioco sinonimi, contrari, semantica e via dicendo...

Prima di passare ad insiemi generici ricordo che:
come ho detto nel primo post del 3D lo scopo di questa analisi era raggruppare le visite provenienti da ricerche sui MDR in categorie "auto-detected" di keywords in modo da avere un report sintetico su quali siano le sezioni di un sito web che "tirano" di più.
Completata questa fase con buoni risultati mi propongo ora il seguente nuovo obiettivo:

Dato che un keyphrase può comparire in diffenti categorie è possibile determinare un categoria "principale" per una data KeyP? Se si come?
Un idea potrebbe essere quella di tener conto di:
1.a) La posizione della parola che identifica la categoria all'interno della keyphrase.
1.b) La "forza" della categoria, cioè il numero di keyphrases che costituiscono la corrispondente BagOfWords.

Infatti se da un lato il contenuto informativo (entropia?) di una Keyphrase
utilizzata nei motori di ricerca è molto spesso confinato nelle primissime posizioni all'interno della frase, dall'altro non si dovrebbe trascurare l'effetto di "specializzazione" introdotto da categorie "deboli"...

agoago

Come Paocavo ben sa, mi sto dedicando a questo bellissimo studio su come creare delle categorie in base ad un elenco di key, tematiche e no.

Devo dire che pensavo fosse piu' semplice.

Innanzitutto mi sono scontrato con i limiti hardware e di programmazione, uso un pc solo per questa analisi e mi si inchioda regolarmente.

Poi ho problemi di ordine matematico, ho notato che non riesco a trovare un algoritmo che vada bene sempre, ho come l'impressione che in una prima fase dovro' analizzare il tipo di key (lunghezza, numero, ecc ecc) e poi decidere quale algoritmo usare a seconda della lista di key.

Inoltre vado ciucco con le lingue, uso sempre key inglesi e cosa sembra funzionare per la lingua inglese non va per quella italiana, un vero disastro.

In compenso ero partito per fare un semplice test per vedere se i miei valori erano simili a quelli di Paocavo, ora mi sto appassionante perche' e' veramente un argomento bellissimo, oltre ogni mia piu' rosea aspettativa.

Auguro a chi ha un po' di tempo di provarci, perche' e' veramente stimolante e a mio giudizio puo' dare anche grosse soddisfazioni in campo seo.

paocavo

@agoago said:

Innanzitutto mi sono scontrato con i limiti hardware e di programmazione, uso un pc solo per questa analisi e mi si inchioda regolarmente.

Effettivamente sono in ballo strutture dati abbastanza articolate, oltre ad un buon processore e tanta RAM il lavoro si facilita se, a seguito di una progettazione Object Oriented, si adottano in maniera massiccia Collection di Oggetti e recordset disconnessi per gli ordinamenti e raggruppamenti...

Poi ho problemi di ordine matematico, ho notato che non riesco a trovare un algoritmo che vada bene sempre, ho come l'impressione che in una prima fase dovro' analizzare il tipo di key (lunghezza, numero, ecc ecc) e poi decidere quale algoritmo usare a seconda della lista di key.

In fase di decisione della "categoria principale" sono necessarie, sopratutto per le keyword + importanti soluzioni euristiche: il sistema deve proporre le categorie "candidate" sulla base di dati statistici (data mining) e poi si lascia la possibilità di decidere all'amministratore.

Per le categorie meno importanti l'applicazione decide in questo modo:
a) Considera la posizione e la forza di ciascuna categoria presente in una keyphrase allora la categoria "principale" è quella più debole e che sta più a "sinistra" all'interno della frase.

Inoltre vado ciucco con le lingue, uso sempre key inglesi e cosa sembra funzionare per la lingua inglese non va per quella italiana, un vero disastro.

Ovviamente gli algoritmi cambiano perchè cambia la grammatica, anche se sto preparando un test ad-hoc per le key di AgoAgo...(a presto i risultati ). Il test è ad hoc per il sistema di alimentazione: invece che prendere i dati dai miei log li prelevo da un file di testo.

In compenso ero partito per fare un semplice test per vedere se i miei valori erano simili a quelli di Paocavo, ora mi sto appassionante perche' e' veramente un argomento bellissimo, oltre ogni mia piu' rosea aspettativa.
Auguro a chi ha un po' di tempo di provarci, perche' e' veramente stimolante e a mio giudizio puo' dare anche grosse soddisfazioni in campo seo.

Quoto, è un campo veramente affascinante!

Domanda: a cosa serve tutto ciò?

A costruire spamengine più avanzati?

paocavo

@Everfluxx said:

Domanda: a cosa serve tutto ciò?

come ho detto nel primo post del 3D lo scopo di questa analisi era raggruppare le visite provenienti da ricerche sui MDR in categorie "auto-detected" di keywords in modo da avere un report sintetico su quali siano le sezioni di un sito web che "tirano" di più.

Effetti e scopi secondari non sono esclusi... dipende da cosa devi fare,
sta poi alla (in)coscienza del webmaster l'utilizzo dei risultati per tecniche di posizionamento poco "ortodosse", anche se qualcuno tempo fa parlava di [url=http://www.giorgiotave.it/forum/viewtopic.php?p=89195]DIV "seo-oriented"...

lowlevel

Se siete interessati a qualche algoritmo di clustering non dipendente dalla lingua usata nei testi delle keyphrase, vi consiglio di dare un'occhiata a tutta la famiglia degli algoritmi k-means.

Io ho ottenuto discreti risultati ignorando ogni aspetto linguistico ed usando una semplice lista di stop words.

paocavo

@LowLevel said:

Se siete interessati a qualche algoritmo di clustering non dipendente dalla lingua usata nei testi delle keyphrase, vi consiglio di dare un'occhiata a tutta la famiglia degli algoritmi k-means.

Io ho ottenuto discreti risultati ignorando ogni aspetto linguistico ed usando una semplice lista di stop words.

Ho dato un'occhiata agli algoritmi di clustering k-means e devo dire che sono molto interessanti (appena avrò un pò di tempo cerchrò di implementarne uno ad-hoc) .

In un certo senso l'algortimo che ho proposto in questo 3D è un algoritmo di clustering k-means, nel senso che:

Considero media e deviazione standard del set iniziale.
La "metrica" è quella on/off (il centroide esiste/non esiste nella KeyP)
Categorie <=> Cluster
Sub-centroidi <=> Categorie "principali"
dovrò lavorare sui "raffinamenti" ovvero sulla determinazione dei Sub-centroidi con iterazioni ricorsive...

Infatti, aggiungendo le stop-words inglesi al sistema sembra che i risultati non siano da scartare, vero agoago?
PS: Ci stiamo scambiando algoritmi e set di keyphrase per confrontare i risultati. Le sue KeyP sono inglesi e generiche, le mie italiane e "tematizzate"

lowlevel

@paocavo said:

La "metrica" è quella on/off (il centroide esiste/non esiste nella KeyP)

Hmm... a meno che io non abbia compreso, credo che su questo punto il tuo algoritmo differisca parecchio con quello che si può ottenere con un k-means.

Correggimi se sbaglio: lanciando [url=http://www.cavone.com/services/KeyphraseAnalyzer.asp?numKey=999&btngo=+Go%21+]il tuo tool si nota che ogni categoria raccoglie keyphrase contenenti sempre la keyword che identifica la categoria.

Nel k-means non è così: la keyword o keyphrase che identifica la categoria non necessariamente appare nelle keyphrase assegnate alla categoria.

paocavo

@LowLevel said:

...
Correggimi se sbaglio: lanciando [url=http://www.cavone.com/services/KeyphraseAnalyzer.asp?numKey=999&btngo=+Go%21+]il tuo tool si nota che ogni categoria raccoglie keyphrase contenenti sempre la keyword che identifica la categoria.
...

In effetti è proprio così! non per niente ho detto "in un certo senso..." l'algoritmo appartiene alla classe suddetta: certo, la metrica utilizzata è quella più triviale ma è pur sempre una metrica .

Appena ho un pò di tempo passerò a quelle euclidee degli spazi n-dimensionali