SEO Text Mining: The Next Generation!

paocavo

SEO Text Mining: The Next Generation!

Alla luce di questa discussione vi propongo questa discussione avvenuta il mese scorso tra il sottoscritto e (il grande) Agoago:
@Agoago said:

Cercando informazioni sul trattamento automatico dei contenuti ipertestuali da parte dei motori di ricerca mi sono reso conto di un loro algoritmo a me sconoscito.
Usano alcune "parole", articoli e congiunzioni per verificare, per differenziare il testo artificiale-doorway-spam da quello umano naturale.
Se in un sito la parola "file" e' presente in modo innaturale a loro non interessa, perche' il tuo sito potrebbe essere dedicato unicamente al download dei file. Pertanto....
Tuttavia le congiunzioni, gli articoli, qualsiasi sia la tipologia del tuo sito, devono rispecchiare-avvicinarsi alla presenza media di qualsiasi altro sito presente sul web per una data lingua.
Cosi' per quanto riguarda la lunghezza media delle frasi, della punteggiatura, del grado di lettura del testo.
Oltre ad aspetti "semplici" (grammatica, analisi logica, tematica del sito o delle pagine, distribuzione delle parole in base alla loro presenza media sul web) ma sentivo che mi mancava ancora qualcosa.

Rimane da risolvere una questione che mi fa impazzire, perche' cosa vale per google non vale per msn per non parlare di yahoo.In poche parole si tratta del peso-valore medio di ogni parola che forma un testo.
Nessuno normalmente quando scrive in modo naturale usa nel suo testo parole molto difficili, arcaiche o estremamente specifiche rispetto un dato argomento.
Google tiene conto di questo aspetto mentre msn premia questi testi, yahoo se ne frega.
A tal proposito mi sono imbattuto nei Test di Leggibilità di un Testo:
Parti da questo link, (magari per te e' cosa risaputa, a me ha stravolto il lavoro):
http://en.wikipedia.org/wiki/Flesch-...adability_Test
Guarda anche i "see also" link.
Per esempio:
http://www.online-utility.org/englis...nd_improve.jsp

Oltre a questo aspetto mi manca la parte della dimensione del font, quello di cui discutevamo quando hai presentato i risultati del tuo test. Non so se sminuendo una data parte di testo si riesca a valorizzare anche minimamente un altra.
Non penso di aumentare i font delle key da spingere, ma sminuire alcune parole di contorno.
Puo' valerne la pena o no, secondo te?
Indica la tua strada teorica, personalmente sono contrario ad ogni modifica della dimensione del testo, per i motori e' spam se fatto in ogni pagina, e se fatto solo ogni tanto comunque comporta un maggior lavoro per i motori nella compilazione dei sort.
Pensaci bene, grazie, ciao. Ago

@paocavo said:

Come ho già detto in questo post e seguenti Google ha penalizzato fortemente la pagina che utilizzava font proporzionali alla rilevanza semantica (rilevata dal mio tool). Adesso ho rimesso la pagina nel formato originale (senza text-cloud) per vedere se riconquista il posizionamento originale.
Comunque dipende dai risultati che vuoi avere: nel breve termine ti dico di NO. Lasciare stare il font-size (forse stiamo anticipando troppo i MDR ). Nel lungo termine chi può dirlo? In ogni caso credo che con l'avvento del web semantico la direzione dovrebbe essere quella...

@Agoago said:

Se fosse quella la direzione (e credo anch'io sia cosi') allora dovrei usarlo, ma rimangono i soliti 2 dubbi... penalizare una key serve a valorizzarne un altra, e se la valorizza vale la pena di pagare lo scotto del maggior lavoro del bot?
Per lavoro del bot non intendo il lavoro dello spider, ma del bot appunto che e' cosa ben diversa. Il bot comanda lo spider e piu' lavoro fa il bot per pagina meno pagine indicizza il suo spider.

@Paocavo said:

Questo sarebbe da testare! Anche se credo che, a questo punto, la situazione sarebbe la stessa: cambia il fattore di scala ma il risultato sarebbe lo stesso.
Irregolarità nell'enfasi delle parole verrebbe comunque malvista...

@Agoago said:

Concordo in pieno, ci sono delle eccezioni, ma vanno prese come tali. Spero di non aver influenzato il tuo parere, viceversa sarebbe inutile chiedertelo.

@paocavo said:

Wow !!! non ci crederai ma non sapevo degli Indici di Leggibilità di un testo! Grazie 1000!
Quanto prima li adotterò nei risultati dei miei tool di text-mining pubblicati su www.nelsenso.it (a proposito li hai visti? Che ne pensi?)
A tal proposito mi serviva un algoritmo per la divisione in sillabe di una parola Italiana ma, googlando, scopro che esite l'Indice Gulpease che contempla la lunghezza media di una parola invece che il numero medio di sillabe!
Ti segnalo inoltre: http://www.standards-schmandards.com...xt-readability
Quindi dici che il peso di una parola dipenda anche dalla sua rarità (nel web)?
Nei miei studi il peso di una parola s'intende eslusivamente come la rilevanza semantica (saliency score) della parola nel contesto elaborato. Tale rilevanza è calcolata sulla base dei principio di reciproco rinforzo semantico.

@Agoago said:

Ehehe, ed io cosa ho detto? Esattamente quello che dici tu, solo che tu valuti la rilavanza semantica per un solo testo, i motori la valutano in base a tutti i testi presenti nel loro db. Di fatto e' la stessa cosa...
Su un tuo sito la parola casa puo' avere valore 100 ma per un motore potrebbe avere a livello mondiale valore 120.... secondo te prenderanno come riferimento (per il tuo sito) 100 o 120?
Tu varrai per la parola casa 100 rispetto al 120 generale pertanto nel tuo caso la parola casa scende nelle serp. Ma il conto lo fanno in base al db globale.
Tu sai che casa nel tuo sito vale 100... ma e' solo un primo passo, come fai a fare un confronto se non hai il secondo termine di paragone... quello globale?
Per quanto riguarda il il principio di reciproco rinforzo semantico, lo uso anchio, ma non ho capito bene se nel tuo tool tu parta assumendo che inizialmente tutte le frasi abbiano un valore di default uguale e poi procedi.
Personalmente uso una base tipica degli algoritmi dei primi motori di ricerca.
Conto le frasi, conto le parole, conto il numero di parole dentro ogni frase.
Assegno ad ogni frase un valore discendente (la prima vale 100 e l'ultima vale 1 nel caso di 100 frasi).
Lo stesso faccio per tutte la parole di tutto il testo.
Poi calcolo il valore medio delle parole di ogni frase in base al numero delle parole della frase.
Sommo e riassegno il valore delle parole presenti piu' di 1 volta nel testo.
Da li procedo in ciclo variando ogni ciclo valore della frase, delle parole.
In poche parole il primo ciclo assegna ad ogni frase ed ogni parola un valore ben preciso, poi parto con il reciproco rinforzo.
Non si puo' fare altrimenti, per esempio i motori sanno benissimo che su un testo di 100 righe solo una minima percentuale di utenti si leggeranno tutto il testo, da qui quanto sopra.
Tuttavia le congiunzioni, gli articoli, qualsiasi sia la tipologia del tuo sito, devono rispecchiare-avvicinarsi alla presenza media di qualsiasi altro sito presente sul web per una data lingua.
Cosi' per quanto riguarda la lunghezza media delle frasi, della punteggiatura, del grado di lettura del testo.
Se ci pensi e' una cosa logica. Poi trattare qualsiasi argomento ma non puoi scrivere senza congiunzioni o con frasi lunghe 400 parole e via dicendo. Ecco pertanto che le stop key che prima venivano ignorate adesso diventano fondamentali, cosi' per la punteggiatura.

@Paocavo said:

Molto interessante..., è in questo senso allora che s'intende la prominenza? Visto che, inizialemte, le frasi hanno peso decrescente nell'ordine di lettura. Per gli obiettivi dei MDR (..."una minima percentuale di utenti si leggeranno tutto il testo"...) è sicuramente sicuramente una miglioria nel calcolo dei pesi iniziali delle frasi. Inoltre la linearità decrescente nell'assegnazione dei pesi iniziali contiene già in se il fatto che frasi rilevanti, in genere, sono "vicine" ad altre frasi/concetti rilevanti (indipendentemente dal numero di parole-rilevanti che esse contengono). Nel mio algoritmo normalizzo (con il logaritmo) anche sul rapporto num-parole-frase/num-parole-frase-più-lunga. La tua soluzione mi sembra migliore anche per i miei obiettivi (determinare la semantica/riassunto di un testo)

@Agoago said:

Sai che parlandone mi sono accorto che forse il sistema che uso puo' essere migliorato e non di poco?
Scegliendo la linearità decrescente nell' assegnazione dei pesi iniziali ho semplificato il tutto dicendomi: ci sono le frasi e le parole, e la lunghezza delle frasi.
Pertanto usiamo questi 3 valori, da qui il limite.
Mi spiego.
Ipotizziamo che abbia un testo formato unicamente da 2 frasi. La prima cortissima la secondo normale.
Nessuno si fermerebbe alla lettura della sola prima frase, se fosse formata da 3 parole direbbe poco e nulla, si deve proseguire nella lettura!
Idem per quanto riguarda le parole in una frase.
Immaginati 2 frasi, la prima lunghissima, la seconda normale.
L'utente parte con il leggere la prima, a meta' si stufa e butta un occhio alla seconda frase.
E' pensabile che l'ultima parola della prima frase lunga valga di piu' della prima parola della seconda frase media?

Mi sono letto decine di documenti in merito e la lunghezza media delle frasi in inglese a lettura scorrevole non dovrebbe superare le 15 parole.
Bisogna applicare le formule alla realta' dei fatti, non devrebbe esser usata fine a se stessa.
Il testo al posto di esser diviso per frasi potrebbe esser diviso inizialmente per blocchi di parole.
Se nel primo blocco ci fossero, per ipotesi, 3 frasi allora tutte e 3 pottrebbero assumere grossomodo uno stesso valore iniziale.

Altra questione da me un tempo sottovalutata. Le congiunzioni.
In inglese ci sono un centinaio di congiunzioni, modi di dire che servono a rendere piu' scorrevole il discorso ed ad unire 2 frasi o piu' in un' unica frase.
Questo avviene il piu' delle volte quando le 2 frasi sono mediamente corte.
Ma avviene anche con frasi lunghe.
Mediamente gli inglesi mettono una congiunzione ogni 12 parole.
Molti esperti suggeriscono di considerare come fossero 2 o piu' frasi quelle frasi lunghe contenenti delle congiunzioni. Spaccano la frase lunga in piu' frasi per ogni congiunzione che contiene.
Questo perche' un and, una virgola assume di fatto lo stesso ruolo del punto, anche se in forma minore.
Il punto ci dice, frase finita, passa alla prossima.
Un "in other words" ci dice procedi nella frase, ma cio' che leggerai dopo sara' un concetto legato alla prima parte della frase, ma nel suo insieme distinto.
Un and lega una prima parte alla seguente, da un'aggiunta al testo che la precede, concatena e' vero... ma offre anche un punto di rottura, una pausa.

Non solo, ma se vogliamo andare nel pratico, personalmente lavorando in funzione dei motori, non solo tengo conto delle congiunzioni, delle stop keyword, ma anche delle poison words.
Non sono poche decine come molti ritengono ma alcune migliaia. Parole come email, web, internet, free, blog, etc non hanno peso per i motori in quanto forzature, parole che appaiono in % assurda sul web rispetto al loro uso comune nella lingua di tutti i giorni.
Lo stesso vale per le parole che non esistono.
Se scrivo una parola inventata come prima della prima frase per il motore vale comunque 0, come se scrivessi web od email.
Tu invece la consideri nel tool.

Tra parole inesistenti e parole over-usate ci stanno in mezzo i numeri.
Come consideri i numeri? Per te 1412413 e' una parola come un altra?
Il numero va trattato a parte, come una stopkey ma con qualcosa in piu'.
Questo per motivi "storici". Poco dopo il 2000 tutti gli spammer iniziarono a fare le pagine infarcite di numeri e di key che volevano spingere. I motori davano pochissimo peso ai numeri e di conseguenza valorizzavano il testo rimanente: le key.
Pagine lunghe e piene di testo ma con dentro solo un centinaio di key sensate, il resto numeri. Il motore non vedeva lo spam ed alla fine tutto il valore andava alle parole alfa.
Poi hanno corretto il tiro, il numero vale solo se associato prima o dopo ad una parola sensata e question finita.

Altra questione, lunghezza del testo. Tu dici, dato un dato testo in base al reciproco rinforzo cerchero' di valutare quali parole siano maggiormente significative in quel testo.
Questo vale solo se il testo non e' oltre una certa lughezza.
Ti faccio un esempio. Ipotizziamo un testo di 100.000 parole. Ipotizziamo che le parole cane e gatto siano indubbiamente predominanti. Testiamo il tutto ed ecco che il tool ci da come parole predominanti cane e gatto. La formula funziona.
La formula, il tool ci dice anche che quelle 2 parole hanno tuttavia un valore molto basso in %, del resto il testo contiene moltissime altre parole.
Stara' poi al nostro giudizio fare le valutazioni del caso, tenerne conto o meno.. del resto la loro % e' veramente bassa.
Peccato che i motori non abbiano questa possibilita', devono fare una scelta subito, ne terro' conto o no?

No, non ne terranno conto, ma non per questo sprecano la spiderizzazione. Se le parole non raggiungono il mio levello minimo prestabilito considerero' le coppie di parole, e se anche in quel caso non avessi soddisfazione passerei alle triplette e via discorrendo.

Detta cosi' sembra cosa semplice e logica, se non fosse che cosa ne consegue ha del geniale.
Non vorrei annoiarti, ma seguimi perche' ne vale la pena.
Per esempio nel tuo sito scrivi:

"Un termine è tanto più rilevante quanto più è elevato
*il numero di frasi rilevanti a cui appartiene, *
allo stesso tempo, una frase è tanto più rilevante
quanti più termini rilevanti essa contiene."

Ok. Ti sei mai chiesto quante pagine nel web contengano (in base ai valori prestabiliti dai motori) un termine (per loro) rilevante??
Zero.
Qualsiasi termine in qualsiasi pagina non puo' essere rilevante per un motore, ne rispetto il proprio contenuto, ne rispetto i contenuti della concorrenza.
I motori sanno ovviamente che una pagina ha uno o piu' termini rilevanti al suo interno, ma siccome nessun termine raggiungera' mai i valori da loro attesi (perche' non passera' indenne attraverso i loro filtri anti spam) ecco che in pratica, di fatto, non esiste per i motori la rilevanza di un termine.
Pertanto non ha senso pratico parlare di "termine", ma ha senso parlare di "insieme di termini".
Insieme di termini con prossimita' 0 o piu' tra le varie parole che lo formano, ma sempre insieme di termini.
O ragioni a doppiette, triplette e via dicendo di parole o il servizio rimarra' un mero esercizio teorico.
Prima si calcola il peso finale di ogni parola in ogni frase, poi si somma il valore delle parole, 2 a 2, e si procede ricalcolando il tutto.
Se non si ottiene un valore soddisfacente per le coppie allora si passa di 3 in 3, ovviamente abc bcd cde, etc..
Se in nessun modo si ottiene un valore per "insieme di parole-termini" veramente rilevante allora si marca il testo analizzato come ambiguo.

Tu penserai, beh il principio rimane lo stesso, che cerchi-ottenga un rinforzo reciproco in base a termini singoli, o a coppie, o a piu' termini non cambia nulla, e' solo una questione di scelta.
Una scelta che puo' rimanere pura se non tenessi conto dei motori, o che potrebbe adattarvisi se ne volessi tenere conto.
Insomma penserai, non si puo' criticare il rinforzo reciproco solo perche' in prima battuta si basa su termini singoli... la teoria apre la strada, poi ognuno la percorre come meglio crede o come meglio gli convenga!

Peccato non sia così semplice... senno' non ti avrei detto prima che: "cosa ne consegue ha del geniale".
Nel momento stesso in cui accetti-capisci-ammetti che il reciproco rinforzo debba essere calcolato non solo in base a parole singole ma anche in base a parole consecutive, anche in base a parole piu' o meno distanti tra di loro, beh ecco che allora capirai che il calcolo attuale e' approssimativo in pieno...
Anche se volessi calcolare solo il valore dei singoli termini.

Nella prima fase calcolerai come meglio credi il valore dei termini singoli.
Nella seconda fase calcolerai le accoppiate di termini. Il valore delle accoppiate sara' poi ridistribuito sulle parole che le compongono.
Ricolcolerai pertanto il valore dei termini singoli (questa volta influenzati dal valore delle loro parole adiacenti), ricalcolerai il valore delle coppie (in quanto si basano sempre sulla somma dei nuovi singoli valori dei termini che le compongono, oltre eventuali loro ripetizioni) e poi solo dopo calcolerai il valore delle triplette.
Cosi' fin tanto che per almeno un gruppo di termini avrai ottenuto un valore soddisfacente.
Quando lo avrai ottenuto verificherai che spesso molte delle parole che compongono quel gruppo di termini non saranno le stesse che singolarmente prevalevano.
Ma allora... dove sta la ragione, sempre che ne esita una valida per tutte le occasioni?

Detta cosi' sembra una tecnica lunga e poco pratica, ma lo e' perche' non essendo un matematico non conosco la formula giusta per svelocizzare il tutto.
Mi hanno anche detto che potrei procedere in senso inverso.
Contare in prima battuta se esistano gruppi di parole contigue ripetuti nel testo, se non esistono passare a gruppi piu' brevi. Se non esistono verificare se esistono gruppi di parole distanti tra di loro ripetuti e cosi' via.
Nel caso non ci siano ripetizioni calcolare i singoli termini, ma poi sommare i valori dei singoli termini con i valori degli altri termini che si ripetono entrambi almeno 2 volte, anche se molto distanti tra di loro.
Insomma considerare tutte le coppie di parole anche fossero, le 2 parole, distantissime tra di loro nelle varie frasi del testo. Ovviamente se entrambe le parole appaiono almeno 2 volte..

Girala come credi ma non ha nessun senso pratico per un seo la rilevanza di un singolo termine, poco o nulla di una coppia, personalmente lavoro da 4 termini in su e riesco a gabbare solo msn.

E poi c'e' ancora chi pensa che i motori siano banali somme di semplici algoritmi.
Se i motori oggi fossero letteratura anche Dante (oggi) avrebbe seri problemi nel prevalere.
Hanno raggiunto livelli di analisi del web incredibili, impensabili per noi che ne siamo esterni... solo con profondi calcoli possiamo competere, malamente, in modo approssimativo, giocando sul fatto che gli altri seo sono disperati come o peggio di noi.
Ma oggi, alle soglie (che banale espressione alle soglie) del 2007 si parli ancora di rinforzo reciproco di termini singoli rispetto alle singole frasi, beh... giudica tu.
Io ero fiero di calcolare il rinforzo reciproco in base a gruppi di termini rispetto alle singole frasi, ma non avevo mai pensato che la lungheza di un testo filtrato potesse influenzare il valore iniziale delle frasi che lo compongono.
Non piu' frasi valutate singolarmente ma gruppi di frasi suddivise in base alla loro lunghezza ed in base alla lunghezza del testo che le contiene.

paocavo

continua...:D
@Paocavo said:

Come ti già detto il mio "Dominio di conoscenza" non è il WEB (non ho un "Global Catalog" nè una sua stima ) ma il solo testo elaborato. In questa scala allora parlo di rilevanza delle singole parole piuttosto che di gruppi di parole.

@Agoago said:

Paolo, scusa ma non sono d'accordo. Il fatto che si elabori un testo singolo senza doverlo confrontare con il resto del "web" non giustifica che si possa partire dal presupposto che la rilevanza di singole parole sia piu' significativa di aggregazioni di termini.
Se pensi che, ragionando per aggregazioni, anche i valori dei singoli termini ne subiranno di conseguenza l'influenza, ecco che allora non serve una giustificazione verso questa scelta quella che i motori di fatto l'impongano, ma che indifferentemente che si parli di documento comparato o meno, il reciproco rinforzo per singoli termini migliora se tiene conto del peso dei singoli termini se valutati anche come possibili componenti di termini aggregati.

@Paocavo said:

Se dovessi pensare al reciproco rinforzo applicato al WEB allora direi:
"Un pagina è tanto più rilevante quanto più è elevato il suo numero di BackLink rilevanti,
allo stesso tempo, un BackLink è tanto più rilevante in quante più pagine rilevanti esso è posto."
Il discorso (cioè la semantica) si spostrebbe quindi dai termini ai Backlink e dalle frasi alle intere pagine.

@Agoago said:

Qui siamo ovviamente ad un livello ulteriore di analisi, analisi che riguarda l'influenza esterna che possono subire i termini del testo se condizionati da eventi esterni.
Ma ripeto non e' il nostro caso. Il fatto che i motori non considerino dei termini molto comuni in egual modo di come noi potremmo valutare una congiunzione, non implica che pur inglorando questo aspetto tipicamente legato ai motori si debba ignorare il peso assunto da un singolo termine se calcolato anche in base alla sua prossimita' rispetto ai termini vicini.
In poche parole un termine singolo risente dell'influenza dei valori dei termini a lui prossimi, da qui la scelta di lavorare per gruppi di termini.

@Agoago said:

I motori sanno ovviamente che una pagina ha uno o piu' termini rilevanti al suo interno, ma siccome nessun termine raggiungera' mai i valori da loro attesi (perche' non passera' indenne attraverso i loro filtri anti spam) ecco che in pratica, di fatto, non esiste per i motori la rilevanza di un termine.

@Paocavo said:

Infatti i MDR lavorano sui documenti (pagine) non sui singoli termini...

@Agoago said:

Non e' sempre cosi', i motori trattano i documenti in modo diverso a seconda che un documento abbia rapporti esterni o meno.
Se io faccio una home di un sito nuovo, una sola pagina in un sito, come potrebbe un motore valutare quale siano i termini (singolo o non) da premiare per qualla singola pagina ?
Il sito e' nuovo, link esterni non esistono, altre pagine nemmeno oltre alla home... ed allora tutto serve al motore, reciproco rinforzo in primis.
Si basera' sull'assegnazione di valori per singoli termini, coppie e via dicendo, ma essendo il web stra competitivo probabilmente solo quartine di key di quella pagina raggiungeranno i primi posti nei suoi sort.
Il fatto che il motore terra' conto solo di gruppi di termini (per i suoi sort) non significa che non dia un valore anche ai termini singoli, ci mancherebbe, ma neanche che se un testo, e' analizzato senza rapportarlo ad altro, sia giustificabile fermarsi unicamente nel assegnare il valore a singoli termini.
Come detto sopra, non solo la pratica rispetto ai motori ce lo suggerisce (ma ora freghiamocene perche' nessuno ci impone di prediligere pratica rispetto teoria, facciamo finta che non esista altro che il nostro documento da analizzare) ma e' la teoria del reciproco rinforzo che lo impone.
Rinforzo reciproco significa valutare un termine rispetto alle frasi che lo contengono, le frasi rispetto ai termini rilevanti che le compongono... e non un termine rispetto agli altri termini che gli sono prossimi?

@Paocavo said:

Tu dici: "Prima si calcola il peso finale di ogni parola in ogni frase, poi si somma il valore delle parole, 2 a 2, e si procede ricalcolando il tutto. Se non si ottiene un valore soddisfacente per le coppie allora si passa di 3 in 3, ovviamente abc bcd cde, etc..Se in nessun modo si ottiene un valore per "insieme di parole-termini" veramente rilevante allora si marca il testo analizzato come ambiguo..."

Quando mi fermo? Qual'è la soglia? Basta l'esistenza e la positività della rilevanza di una coppia(/tripla) di termini?

@Agoago said:

Se il testo e' valutato in un insieme di testi allora non c'e' problema, sara' l'insieme a fornirci dei valori di riferimento, se invece e' valutato "a se stante", allora le cose si semplificano. Avremo comunque un scala dei singoli termini piu' rilevanti (termini singoli calcolati anche grazie alla loro prossimita' con gli altri termini) e la scala delle coppie ecc ecc ma non sara' nostro compito stabilire se il valore dei termini sia significativo o meno, forniremo una lista di valori e basta.
Tu penserai, beh il principio rimane lo stesso, che cerchi-ottenga un rinforzo reciproco in base a termini singoli, o a coppie, o a piu' termini non cambia nulla, e' solo una questione di scelta.
Una scelta che puo' rimanere pura se non tenessi conto dei motori, o che potrebbe adattarvisi se ne volessi tenere conto.
Insomma penserai, non si puo' criticare il rinforzo reciproco solo perche' in prima battuta si basa su termini singoli... la teoria apre la strada, poi ognuno la percorre come meglio crede o come meglio gli convenga!

Peccato non sia così semplice... senno' non ti avrei detto prima che: "cosa ne consegue ha del geniale".
Infatti! Il sistema è plausibile (e geniale ) se visto nella tua scala di proporzioni!
Dobbiamo distinguere tra l'idea e la realizzazione della stessa. Anche il pr era geniale, la formula semplice, ma e' stato come sono riusciti a fare un calcolo veloce che ne ha determinato il successo.
L'idea della pallina che cade dall'alto e cambia percorso a seconda dei paletti che incontra sulla sua strada ha portato alla formula statistica che definisce le probabilita' di giuengere da A a Z, l'utente e' la pallina, i link dei siti i paletti che ne influenzano i percorsi.
Tu sei bravo in queste cose, io lavoro a spanne, ma lo faccio per me e pertanto non devo rendere conto a nessuno.
Se tu mettessi online un tuo tool per calcolare il valore dei termini singoli, delle coppie ecc ecc di una pagina singola, avresti una marea di iscrizioni in quanto non esistono servizi di questo genere online.
Ma un servizio di rinforzo reciproco, basato solo su termini singoli, senza considerare le congiunzioni e' utile... per pochi intimi appassionati.
Vedere tanto lavoro senza riconoscimenti economici... che spreco. Pensaci.
E comunque il rinforzo reciproco si basa anche sul rapporto tra i vari termini delle frasi. Il rinforzo reciproco pervade tutto il testo analizzato, in ogni sua parte. Non te ne rendi conto perche' analizzi testi lunghi, analizza un testo di 2 righe e poi dimmi se potrai non tener conto del valore distribuito, a seconda della prossimita' tra i singoli termini.
Se il termine A vale 100 e B vale 50, B acquisira' un po' di valore da A e da C, ecc ecc.
Poi potremo anche calcolare il valore della coppia A e B, e via dicendo. Questo per un singolo testo, nessuna influenza esterna.
L'influenza delle prossimita' e' cosa acquisita, cosi' come l'influenza dell'insieme di termini.
Che questa tecnica sia stata suggerita nel tempo indirettamente da come ragionano i motori non importa. Funziona cosi'.
Il tuo tool fa esattamente cosa propone e funziona perfettamente.
Non ti rabbuirare se pero' ti dico che propone la ricetta del riso in bianco. Ricetta perfetta.. per chi sta a dieta
Ciao. Ago

@paocavo said:

Ciao Ago!
che ne dici se postassimo la discussione sul Forum? Magari facendo anche un riassunto delle puntate precedenti?
Ciao!!

@Agoago said:

Certo Paolo, se lo ritieni utile pubblica ogni nostra discussione, se la ritieni di valore.
Taglia e cuci a tuo giudizio, da parte mia hai sempre carta bianca, del resto se non "discutessi" liberamente con te non saprei con chi confrontarmi su questi temi.
Sei una rarita'
Ciao. Ago

cibino

grazie, paolo!
questa documentazione è preziosa!

avrò capito un centesimo di quello che vi siete detti però è molto interessante la discussione!

nbriani

Molto interessante, grazie Paocavo ! (ho risposto di qua) Ma Agoago, il tuo tool è pubblico/online ?

Nicola

agoago

@nbriani said:

Molto interessante, grazie Paocavo ! (ho risposto di qua) Ma Agoago, il tuo tool è pubblico/online ?

Nicola

Nicola, nessuno sarebbe cosi' masochista da mettere un proprio tool innovativo in linea, ci vogliono anni di lavoro per perfezionare certi tool, e di certo dopo tanto lavoro solo un samaritano condividerebbe un suo tool gratuitamente pubblicamente.

Se ne condividono pubblicamente i principi, si discute ogni aspetto, ma poi ognuno tiene ben stretto il frutto di tanto discutere, e con quello-quelli ci campa.

E' come se un motore rendesse pubblici i propri algoritmi.

Con Paolo discutevo anche su questo aspetto.

O si lavora per soldi, o si lavora per fama.

I soldi portano alla fama, esser famosi rende soldi.

Comunque sia, per far soldi o per esser famosi un tool deve avere una valenza pratica, immediata.

Cosa contestavo amichevolmente a Paolo era che il suo tool pubblico fosse molto basato sulla teoria e poco sulla realta' attuale.

Essendo lui un ingegnere non e' che si possa pretendere dei miracoli, ingegneri sono l'opposto dei commercianti.

I commercianti in media sono dei pirloni convinti di esser delle cime, hanno un senso pratico e del guadagno incredibile, ma come cultura e conoscienza se non stanno nel mazzo e' perche' sono in fondo al mazzo.

Per contro gli ingegneri per cultura e conoscienza hanno pochi rivali, ma quando si tratta di guadagno e di esser pratici si rivelano dei pirloni incredibili.

--

Spero di esser al pari dei migliori ingegneri informatici nel creare ottimi tool, ma cosi' commerciante da non renderli pubblici.

giorgiotave

@agoago said:

Spero di esser al pari dei migliori ingegneri informatici nel creare ottimi tool, ma cosi' commerciante da non renderli pubblici.
Chiedo scusa, porto la discussione OT e poi magari la divido.

Agoago, magari un commerciante darebbe una demo/versione limitata per poi vendere quello integrale.

Ovvio, il tool ti serve per fare il tuo lavoro e hai superato grazie a quello la concorrenza di X punti (ipotesi giusta?), allora non devi essere così commerciante da non renderlo pubblico, ma un'altra cosa o no? Infatti non sei più commerciante

paocavo

@agoago said:

Se ne condividono pubblicamente i principi, si discute ogni aspetto, ma poi ognuno tiene ben stretto il frutto di tanto discutere, e con quello-quelli ci campa.

E' come se un motore rendesse pubblici i propri algoritmi.

C'è modo e modo di rendere pubblici i propri algoritmi, anche i brevetti di Google sono online ma solo quello che è necessario (o si vuole...) è disponibile, non tutto...

Con Paolo discutevo anche su questo aspetto.

O si lavora per soldi, o si lavora per fama.

I soldi portano alla fama, esser famosi rende soldi.

Nel tempo libero mi piace lavorare per fama e poi chissà...se non arriveranno anche i soldi...

Comunque sia, per far soldi o per esser famosi un tool deve avere una valenza pratica, immediata.

Concordo pienamente, ma spesso la valenza pratica e immediata arriva dopo (molto dopo)... sopratutto se hai l'opportunità di far condividere le idee, le innovazioni e la possibilità di migliorare il tutto grazie anche e sopratutto ai suggerimenti, idee, metodi pervenuti da più persone

Cosa contestavo amichevolmente a Paolo era che il suo tool pubblico fosse molto basato sulla teoria e poco sulla realta' attuale.

Come ti ho già detto, carissimo Agoago, i nostri obiettivi erano diversi ma nulla vietà che in futuro possano coincidere...

Essendo lui un ingegnere non e' che si possa pretendere dei miracoli, ingegneri sono l'opposto dei commercianti.

I commercianti in media sono dei pirloni convinti di esser delle cime, hanno un senso pratico e del guadagno incredibile, ma come cultura e conoscienza se non stanno nel mazzo e' perche' sono in fondo al mazzo.

Per contro gli ingegneri per cultura e conoscienza hanno pochi rivali, ma quando si tratta di guadagno e di esser pratici si rivelano dei pirloni incredibili.

Esistono le demo e le versioni Enterprise...

Spero di esser al pari dei migliori ingegneri informatici nel creare ottimi tool, ma cosi' commerciante da non renderli pubblici.

Spero di rimanere quello che sono!

agoago

Paocavo scrive:

"Spero di rimanere quello che sono!"

Paolo dai... non mi riferivo a "chi sei" o cosa sai, ma semplicemente di sfruttare-dimostrare al meglio "chi sei e cosa sai".

Saro' un grezzone... ma non mi puoi condannare se mi indegno davanti a tanto valore ad oggi sfruttato economicamente nei minimi termini.

Se vuoi prenderti tempo ok, hai le tue motivazioni, ma sarei un povero ipocrita se ti dicessi che queste tue motivazioni per me sono la classica scusa con se stessi per rimandare il giorno dell'esame.

Scuse del tutto ingiustificabili tenuto conto che l'esame lo passeresti ad occhi chiusi.

Comunque, ho ragione io, fattene una ragione, question finita.

sitionweb

Un post illuminante, grazie a Paolo che Ago che hanno contribuito a renderlo vivo e reso noto

paocavo

@agoago said:

Paocavo scrive:
...

Comunque, ho ragione io, fattene una ragione, question finita.

Farò tesoro delle tue parole!

Grazie ancora

matteo

per valutare l'indice di leggibilità spedite un .txt con il vostro testo (max 32kb)
a http://www.eulogos.net/it/censor/

ogni tanto lo uso, per valutare dei template che replicherò per molte pagine.

umor

Ho letto con attenzione il post ma non capisco bene una cosa: perchè limitarsi a termini singoli, coppie terzine o quartine quando ormai i motori di ricerca si stanno spostando sulle frasi intere ?

Leggendo l'ultimo brevetto phraserank di G si legge:
" Abstract
An information retrieval system uses phrases to index, retrieve, organize and describe documents. Phrases are identified that predict the presence of other phrases in documents. Documents are the indexed according to their included phrases. A spam document is identified based on the number of related phrases included in a document."

Leggendo il brevetto si notano molte cose interessanti che ora non riassumo ma vi lascio leggere.

Però mi hanno colpito alcuni passaggi: "Another aspect of good phrases is that they are predictive of other good phrases, and are not merely sequence of words that appear in the lexicon".

Io la interpreto così: se generi testo artificiale, non ti sarà sufficiente calcolare le prominenze dei valori grammaticali e delle singole parole, perchè se canni l'utilizzo delle stesse ti sego. Quindi se fai un testo "il cane legge un cartellone", anche se grammaticalmente la frase ha senso, io so che un cane non legge quindi ti marco come bad phrase. Il "io so" è da intendersi che un motore di ricerca lo impara spiderizzando ed analizzando il web.

Per capirci il problema non mi sembra più "devo calcolare il peso delle chiavi da spingere" ma "come faccio a generare 50 frasi che siano considerate buone?".

Una volta risolto questo problema, se si generano 50 frasi buone il motore può solo premiarti, indipendentemente dal valore del singolo termine nella pagina.

nbriani

@uMoR said:

Ho letto con attenzione il post ma non capisco bene una cosa: perchè limitarsi a termini singoli, coppie terzine o quartine quando ormai i motori di ricerca si stanno spostando sulle frasi intere ?

Leggendo l'ultimo brevetto phraserank di G si legge:
" Abstract
An information retrieval system uses phrases to index, retrieve, organize and describe documents. Phrases are identified that predict the presence of other phrases in documents. Documents are the indexed according to their included phrases. A spam document is identified based on the number of related phrases included in a document."

Infatti Umor, ma il discorso era proprio nato da qui....

Nicola

agoago

uMoR scrive:

"Per capirci il problema non mi sembra più "devo calcolare il peso delle chiavi da spingere" ma "come faccio a generare 50 frasi che siano considerate buone?"."

uMoR non e' proprio cosi'. In parte e' vero in parte no.
Come dici tu il problema e' capire quando una frase possa essere considerata buona e quando no. Per buona intenderemo "related".

Ma anche ammesso sia possibile distinguere frasi buone da frasi "non buone", Google ci consiglia di rientrare in un dato range di frasi "related e non" per ogni nostro documento.
Non ci dice quanto debba essere (per lui) lungo sufficentemente un documento affinche' possa essere considerato.
Non ci dice che range-% di frase buone ogni documento sufficentemente lungo debba contenere per ottenere il massimo della valorizzazione.
Ci dice pero' che esiste un range e tale range va rispettato.

Calcolare l'ipotetico range tuttavia non e' difficile.

"Una volta risolto questo problema, se si generano 50 frasi buone il motore può solo premiarti, indipendentemente dal valore del singolo termine nella pagina."

La forza di questo algoritmo sta nel valutare quando un documento sia considerabile spam od inutile a seconda dalla % di frasi utili-inutili che contiene quel documento.
Un documento che contenga 50 frasi "utili" su 100 sue frasi sara' considerato spam, un documento con 2 frasi utili sulle 100 sara' considerato "inutile".

Cosa conta appunto e' il range. Rientrare nel range.
Idea non da poco. Pratica quanto geniale. Tipica da Google.

A seguire come calcolare il range teorico.

paocavo

Nel frattempo...

vi segnalo questo articolo

"Il progetto prevede la creazione di un software che esegua una mappatura di singole parole e frammenti di testi più lunghi in un database di concetti essenziali, costruiti sulle informazioni di Wikipedia](http://www.wikipedia.org/) - che, ricordiamo, conta ormai più di un milione di articoli nella sola lingua inglese - costituendo una sorta di conoscenza basilare per comprendere il testo..."

venividi

Agoago scrive: "....La forza di questo algoritmo sta nel valutare quando un documento sia considerabile spam od inutile a seconda dalla % di frasi utili-inutili che contiene quel documento.
Un documento che contenga 50 frasi "utili" su 100 sue frasi sara' considerato spam, un documento con 2 frasi utili sulle 100 sara' considerato "inutile".

Cosa conta appunto e' il range. Rientrare nel range.
Idea non da poco. Pratica quanto geniale. Tipica da Google."

Domanda: cosa è realmente una frase utile oppure una inutile parlando ad esempio di pompe pneumatiche a membrana o di affettatrici a volano? Che è quello che, per il momento, interessa veramente a me ...

Ho seguito altre discussioni di questo tipo in giro per la Rete, e come adesso, non riesco a vedere alcuna possibilità di applicare un qualsiasi algoritmo ai testi dei miei siti. Francamente non riesco a cogliere la 'sostanza'.

Comunque forse posso sopravvivere lo stesso facendo passare il ragionamento per un'altra strada: con i vari algoritmi che s'inventano per vagliare i siti i MDR certamente non intendono premiare strutture artificiali bensì strutture reali, umane. Quindi ritengo che si possano ottenere dei buoni risultati inserendo testi interessanti per i visitatori, insomma cose che buona parte dei visitatori vorrebbe sapere. E questo in ciascuna pagina importante del sito e naturalmente anche nella prima, evitando soprattutto frasi sciocche quali "Benvenuti", "Entra", "Salta intro" ....

Valeria

matteo

@venividi said:

Comunque forse posso sopravvivere lo stesso facendo passare il ragionamento per un'altra strada: con i vari algoritmi che s'inventano per vagliare i siti i MDR certamente non intendono premiare strutture artificiali bensì strutture reali, umane. Quindi ritengo che si possano ottenere dei buoni risultati inserendo testi interessanti per i visitatori, insomma cose che buona parte dei visitatori vorrebbe sapere. E questo in ciascuna pagina importante del sito e naturalmente anche nella prima, evitando soprattutto frasi sciocche quali "Benvenuti", "Entra", "Salta intro" ....

Valeria

ossia fare i siti come andrebbero fatti.

ma credo che il ragionamento di agoago e paocavo si riferisca ad una certa tipologia di siti con centinaia di migliaia di pagine autogenerate, o qualcosa del genere.

mat.

morea67

@Matteo said:

ossia fare i siti come andrebbero fatti.

ma credo che il ragionamento di agoago e paocavo si riferisca ad una certa tipologia di siti con centinaia di migliaia di pagine autogenerate, o qualcosa del genere.

mat.

e si, il ragionamento è come riuscire a emulare google.
fatica sprecata che lascerà il tempo che trova.
poi i siti che stanno primi e lo stanno da sempre sono quelli reali non quelli creati da software di contenuti vari.
quando ne sento parlare ed enfatizzare mi prende l'orticaria.
possibile che non si veda dove sta andando il web, possibile che non si capisca che se google crea un algoritmo per phrase lo fa unicamente per soddisfare il proprio cliente??
possibile che non si comprenda che fare un sito è diverso da cio che fà google...per concetto intrinseco.
come sparare ad una mosca con un cannone...magari ci riuscite una tantum, ma resta un una tantum.
penso che sia meglio fare siti per cio che siamo e per cio che desideriamo offrire veramente ad un cliente, che siano marketing oriented o product oriented non ha importanza, importa solo che seguano le regole del marketing.

perche i blog o i forum sono esplosi. hanno calcolato il range oppure il range era intrinsecom alla struttura e non necessitava di calcoli predeterminati??

se entro in un blog o in un sito che poi mi rida un bel nulla in termini reali di risposta al cio che cerco, be google non vi banna ma non vi farà stare li a lungo se c'è un sito che risponde meglio all'utente e da questo è premiato con maggiori pagine viste, posso metterci la mano sul fuoco in questo senza temere di bruciarla.

e se ciò non avviene ci sarà sempre una risposta legata all'utente ed al suo comportamento ( in generale posso affermare che dipende dal valore della ricerca, valore inteso proprio con il simbolo dollaro).

inutili sforzi, molto temporanei e tra sei mesi ricominciate a creare altri tools.veramente inutili in un progetto vero legato ad una comunicazione ed all'offerta di un servizio reale o soddisfazione di un bisogno in senso generale.

vi rispondo da imprenditore. io non darei mai il mio sito in mano a chi crea contenuti con strumenti.. e dico mai mai.neanche se mi porta in cima alla luna.
i contenuti vanno generati a mano. il web, forse non ve ne siete accorti, sta andando nelle mani dei grandi gruppi, si sta cetnralizzando. giusto o sbagliato che sia questa è la sua naturale evoluzione.

vi faccio un esempio. Il new york times entro tre anni ha predisposto e porterà a termine il passaggio dall'edicola al web, in toto. niente piu carta stampata. nulla. solo pagine web.
bene, quando voi scrivete i vostri pezzi con un software e loro scrivono i loro con un giornalista, a parità di pezzi e di tutto il resto, chi salirà in prima posizione su google.
la risposta è alquanto piu che ovvia?
c'è un fattore emozionale in una lettura che una macchina non puo replicare, solo un uomo ci riesce.
e ciò che desidera il cliente è sempre legato alla sfera emozionale.

stop, ho detto troppo:-)))

paocavo

@agoago said:

Se io faccio una home di un sito nuovo, una sola pagina in un sito, come potrebbe un motore valutare quale siano i termini (singolo o non) da premiare per qualla singola pagina?
Il sito e' nuovo, link esterni non esistono, altre pagine nemmeno oltre alla home... ed allora tutto serve al motore, reciproco rinforzo in primis.
Si basera' sull'assegnazione di valori per singoli termini, coppie e via dicendo, ma essendo il web stra competitivo probabilmente solo quartine di key di quella pagina raggiungeranno i primi posti nei suoi sort.

Ho pubblicato un sito due mesi fa e per questa serp sono in posizione 9.
Come osserverete la query continene una sola parola. Nel caso la posizione in serp dovesse cambiare Il sito in questione ha la parola "piazza" nel nome del dominio.
Come si spiega? (il sito, che io sappia, non dovrebbe avere back-link esterni con quella parola nell'anchor)

[Edit]
Analizzando meglio i BL osservo che esistono serp, per la medesima Key, di altri MDR (search.hotbot.lycos.it) indicizzate da GG.
[/edit]

umor

Si spiega a mio parere perchè attico è una finta chiave.