Anche io sarò presente ...
- Home
- capobecchino
- Post
capobecchino
@capobecchino
Post creati da capobecchino
-
Meemi, il nuovo servizio di microblogging e social network tutto italiano
Volevo semplicemente presentarvi la nostra creatura, finalmente dal 10 di settembre è on line e aperta al pubblico. Fra pochi giorni uscirà la versione in lingua inglese mentre per ora stiamo sfornando tante piccole novità.
Official: http://www.meemi.com
Comunicato: http://www.meemi.com/buzzz/meme/114Grazie a tutti
-
RE: [TEST] Text Cloud semantico
Azzz .. scusami hai perfettamente ragione e dire che l'avevi anche sottolineato per rendere marcata la tua idea ..
C'è da dire che come motore di ricerca funziono proprio male ..
-
RE: [TEST] Text Cloud semantico
Si ma se vedi sono diverse dalle text cloud .. hanno un senso
-
RE: [TEST] Text Cloud semantico
@paocavo said:
Il Text Cloud non può e non deve essere utilizzato all'interno del corpo del testo, ma, come succede sulla carta stampata, se proprio vogliamo dare maggiore enfasi ad una (Key-)phrase (di senso compiuto e "a se stante") che attiri l'utente finale sul contenuto completo dell'articolo, la inseriremo in box separato dal testo dell'articolo ma comunque ad esso adiacente.
Uhm! .. ni .. nel senso che sulla carta stampata non hai una text cloud ma hai l'enfasi delle parole .. ma sempre nel contesto del discorso .. questo è il punto ..
Esempio di un testo su carta stampata con cui vogliamo attirare l'attenzione:
La **mamma **cucina gli **gnocchi **ed è una bellissima *donna.
*Esempio di text cloud che vorremo usare:
**mamma ****gnocchi ***donna
*Come vedi le parole sono uguali ma cambia il contesto .. quindi se è implementato un algoritmo capace di comprendere il testo in lingua naturale o quanto di + vicino è possibile ecco che il secondo nun me ne po fregà de meno
Ma ti ripeto la cosa per ora la sto studiando per il mio algoritmo quindi di + non ti saprei dire però a logica se potrei davvero essere cosi bravo a creare un algoritmo di questo tipo .. lo definirei cosi
-
RE: [TEST] Text Cloud semantico
@paocavo said:
E si credo proprio che l'effetto "Text Cloud" sia stato visto da Google come una sorta di spamming. ....
Allora se mi posso permettere (sicuramente sei più preparato di me) volevo soffermarmi su un punto che tu non hai tenuto in considerazione.
Allora condivido pienamente quello che hai detto a proposito della carta stampata e quindi di riportare il tutto sui motori di ricerca e vedere come reagiscano.
L'unico punto che credo che non hai tenuto in considerazione è che la carta stampata come qualunque descrizione su cui vuoi dare enfasi ad una parte del discorso è formato non come una text cloud ma appunto come un periodo, quindi condito da segni di punteggiatura, regole grammaticali e quando ci è dato dalla nostra amata lingua.
Una text cloud non è altro che un ammasso di parole rese solo + evidenti da regole css quindi ad un occhio umano non sfugge che non è un discorso nella lingua naturale ed è giusto pensare che google (tra i tuoi 3 esempi) il più evoluto (a mio avviso) possa operare un discernimento simile mentre gli altri (live e yahoo) non hanno neanche tenuto conto della cosa in quanto non hanno un meccanismo simile.
Ti dico queste cosette perchè come voi sto sviluppando un motore di ricerca (o almeno ci provo ) e quello che sto/vorrei implementare è proprio questo riuscire a capire se un testo è un semplice testo scritto in una lingua quasi naturale o è un testo di spam e quindi da scartare.
Per il resto complimenti che sono d'obbligo quanto si parla di te .. e quando si naviga nel tuo interessante sito
-
RE: Spider ideale
In parte sono daccordo con la teoria su descritta di avere lo script e l'indicizzazione divisi ma non come hai spiegato nel senso che dovrebbe funzionare in questo modo:
[Script]
. Apre la pagina
. Salva il contenuto nel db
. Recupera altri link che mette nella tabella spider
. Indicizza la pagina per i termini che contiene e solo relativi alla pagina
. Chiude la pagina e passa alla prossima della tabella spider[/Script]
[Elaborazione]
. Per ogni parola contenuta nel db si esegue l'aggiornamento della serp per tutte le pagine che comprendono quel termine
[/Elaborazione]
Logicamente l'elaborazione è spiegata in modo molto semplicistico (e ancora io ci sto studiando su) ma è proprio per rispondere all'esigenza dell'OP che ha proposto (secondo me) un interessante problema.
In questo modo quando lo spieder trova le 3 pagine uguali assegna sempre lo stesso peso alla pagina quindi pari merito nelle ricerche. Al momento dell'elaborazione vengono assegnati i giusti indici tenendo conto di tutti i fattori e di tutte le pagine che sono presenti nel DB
Buona giornata
-
RE: niu entri ;-)
Beh! se si è iscritto e presentato il Tavaz che proviene dalla zona Est di Milano da quel poco che ho capito .. mi sa che siamo entrambi in zona
Quindi eccomi qui con voi .. saluti a tutti
-
RE: eventuali nuovi algoritmi
le pagine iniziali non saranno svantaggiati proprio per lo stesso motivo che una persona normale non è svantaggiata a scuola .. perchè? .. ma dai è facile .. i prof
cmq .. hai ragione bisogna vedere in funziona il tutto e testare infatti spero che a breve riesca a fare una alphissima versione
Il linguaggio che sto usando per ora è php lato utente .. ma credo che userò vb.net o c# per le parti server .. anche se per ora lo sviluppo in php
anche ruby non è niente male .. e volevo provarlo .. bah! vedrò .. per ora mi interessano gli algoritmi poi l'ottimizzazione
-
RE: eventuali nuovi algoritmi
in sostanza è come tu hai detto .. analizziamo il comportamento diretto degli utenti anche se la cosa è un po + grande ..
cerco di spiegarti ..
allora mettiamo che io cerco "sedia" mi verranno dati dei risultati, ora noi misuriamo il tempo di permanenza su una pagina dei risultati, il numero di click che una pagina ha avuto in relazione ad una ricerca, il numero di volte che un utente ha fatto quella ricerca o che ha cambiato pagina nei risultati (cosi capiamo i suoi gusti) ... e alla fine analizziamo e settiamo la posizione.
Ad ogni ricerca viene analizzato il contesto in cui è effettuata ..
Ora come tu hai detto il risultato potrebbe essere falsato ma non è cosi perchè è vero che il mio termine "sedia" potrebbe avere una rilevanza dalla 3^ pagina dei risultati ma è anche vero (come nella realtà) che finchè non impara non sa dove posizionarlo .. anche l'uomo per sua natura deve catalogare le informazioni in suo possesso e lo fa per gradi man mano che impara ..
cioè prima puoi imparare il termine guerra e lo associ alla distruzione, carestia, e tante cose brutte .. poi impari chi è saddam e quindi lo associ a guerra che di conseguenza viene associato a distruzione etc etc.. ecco il nostro algoritmo ricalcola la posizione in seguito a queste nuove info e analizza i gusti (risultati) in base alla nuova proposta ..
questo in termini facili facili quello che noi facciamo ..
spero che sia stato + chiaro .. e se vuoi appena pronto una demo funzionante ti passo i sorgenti per lo studio ...
ora come ora sto cercando di preparare pagine quando + tra di loro disomogenee ..
-
RE: eventuali nuovi algoritmi
Salve a tutti ragassuoli .. da un po di tempo mi stavo (e continuo) dedicando allo sviluppo di un motore di ricerca .. poi vengo a conoscere teecno ... innanzitutto vi faccio i miei complimenti perchè so che è un lavoraccio immane gia il semplice fatto di accomunare tantissime idee e tantissime teste e poi visto che in questo post si parla di nuovi algoritmi vorrei proporvi la strada che abbiamo intrapreso noi per ora perdonatemi se non rivelo il nome del nostro progetto che è nato da una semplice passione personale che sta sfociando in qualcosa di interessante.
La mia idea che volevo suggerirvi è sulla falsa riga del Tf * IDF, l'algoritmo che avete implementato.
Noi siamo partiti da una semplice supposizione. L'algoritmo in questione (in parole povere) per imparare fa una statistica sui documenti che reputa importanti e compara i nuovi per generare il loro posizionamento.
Ecco noi partiti da questo semplice concetto, invece di avere documenti ritenuti importanti vogliamo usare la testa, il cervello che riteniamo importante e quindi studiare e determinare in base alle scelte effettuate dagli utenti il posizionamente di un documento che abbiamo in archivio e comparare i nuovi in base a quelle scelte.
So che parlo in cinese e anche le miei spiegazioni sono scritte a volte in modo incomprensibile .. ma x chi vuole approfondire .. o ne parliamo qui oppure in privato con msn et simila ...
Come ho gia detto a Giorgio non mi sono offerto per lo sviluppo perchè potrei essere in conflitto con voi .. ma mi fa piacere poter discutere di alcune cosette che ci accomunano
in bocca al lupo per tutto