- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- Creare un motore di ricerca
-
@kabodie said:
si riferisce a nutch, che ti assicuro non è motore da 4 soldi
Sì, conosco bene sia Nutch che Lucene. Ti assicuro che Nutch è un motore di ricerca decente, ma troppo semplice per un'applicazione generalista sul Web.
La fase di tokenizzazione è a dir poco elementare, il ranking si basa su normali formule di ITF applicate ai token (roba da anni settanta), le tecniche antispam sono praticamente inesistenti.
Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.
-
@LowLevel said:
Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.
Ciao Low,
Non afferro il concetto, cosa intendi tra operare sul web e cercare per keywords?
-
in attesa di una sua risposta, ti do la mia piccola interpretazione da salumiere:
su internet c'e' competizione, e c'e' l'uso dei trucchi piu' disparati per andare in testa alle SERP.
se un motore di ricerca attuale si basasse sulle keyword, bastarebbe gonfiare le pagine di testo nascosto per andare primi. con risultati a dir poco vomitevoli per l'utente.
i parametri che un motore di ricerca deve considerare oggi sono molto molto diversi, e spesso esterni al sito stesso.
-
@LowLevel said:
Sì, conosco bene sia Nutch che Lucene. Ti assicuro che Nutch è un motore di ricerca decente, ma troppo semplice per un'applicazione generalista sul Web.
La fase di tokenizzazione è a dir poco elementare, il ranking si basa su normali formule di ITF applicate ai token (roba da anni settanta), le tecniche antispam sono praticamente inesistenti.
Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.
pensi che all'origine google era esattamente come adesso?
-
@kabodie said:
pensi che all'origine google era esattamente come adesso?
@LowLevel said:
Serve un mucchio di soldi.
Il primo Google è stato progettato da due studenti universitari che avevano raccolto fondi per circa un milione di dollari.
-
Non vorrei generare equivoci: un motore di ricerca per una intranet ed un motore di ricerca per l'intero World Wide Web sono due bestie completamente differenti (quando scrivo "Web" mi riferisco al "World Wide Web").
Occhio: non sto dicendo che Google è migliore di Nutch, sto dicendo semplicemente che i due non sono paragonabili perché si tratta di due strumenti completamente diversi.
Nutch è una bicicletta e Google è un'astronave; era un'astronave anche il primo modello di Google. Se devi andare a fare la spesa, l'astronave non ti serve a niente: è meglio la bicicletta.
Adesso, la progettazione di un motore di ricerca "generalista" e capace di funzionare bene indicizzando liberamente il Web comprende l'uso di tecniche che invece non servono quando si progetta un motore di ricerca interno ad un sito o un motore di ricerca per una Intranet.
Nei casi più seri, la progettazione di un motore di ricerca per il Web comprende la riscrittura totale o parziale del sistema operativo, del file system o del web server sui quali il motore dovrà funzionare. Un motore di ricerca interno non richiede niente di tutto ciò, perché è un software che si installa ed amen.
Circa la "ricerca di keyword", intendevo dire che indicizzare dei documenti di testo mettendo le parole che li compongono in un database SQL e poi interrogare il database per estrarre i documenti che contengono certe parole e ordinarli in base ad un indice ITF, è un giochetto. Bisogna saperlo fare bene, ma è comunque l'A-B-C, roba che si insegna agli universitari per fargli approcciare il mondo dell'information retrieval.
Tutti i principali motori di ricerca per il Web (Google, Yahoo, MSN) compongono i risultati in base a ben altri fattori e questa è la ragione per la quale io spingo i webmaster ed i SEO ad allontanarsi dalla visione keyword-centrica che spesso possiedono.
-
L'unico motore che attualmente sta riuscendo a battere google è questo:
http://www.baidu.com/Il suo successo nasce da almeno tre cose:
- La cina è un mercato molto particolare;
- Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
- Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.
Chissà che tra un pò non arrivino anche in altri paesi del mondo
[url=http://www.oria.rionegiudea.altervista.org/]
Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni
-
@claudioweb said:
L'unico motore che attualmente sta riuscendo a battere google è questo:
http://www.baidu.com/Il suo successo nasce da almeno tre cose:
- La cina è un mercato molto particolare;
- Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
- Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.
Chissà che tra un pò non arrivino anche in altri paesi del mondo
nn vorrei deluderti, ma baidu, è il nome cinese di google
-
Non vorrei deludere te... ma sei tu che ti sbagli.
Da molti viene definito "Il Google Cinese" per paragonarlo a Google, ma in realtà con google non c'entra.Guarda un pò di news sull'argomento:
http://news.google.it/news?hl=it&ned=it&ie=UTF-8&q=baidu+google&btnG=Cerca+nelle+News
Credi ancora che Baidu è google in versione cinese?
[url=http://www.oria.rionegiudea.altervista.org/]
Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni
-
temo di aver fatto un po' di confusione :bho: :bho:
-
salve a tutti a me servirebbero maggiorni nformazioni su nutch, e in modo particolare che cosa si deve modificare per fare indicizzare e far fare il crawl di una singola directory modificando(almeno io penso che si debba modificare qualcosa nel file urlcrawlfilter) in che modo?
che sintassi si deve usare?
aiuto!!!!!
per me e' estremamente importanteciao
poetaestinto80
-
ciao e benvenuto sul forum
possiamo continuare la discussione su nutch nel topic che hai aperto
http://www.giorgiotave.it/forum/viewtopic.php?t=5998
-
Ragazzi, bella discussione
(devo dire che è da un pò che sono tentato nel realizzarne uno tutto mio )il problema più grosso, oltre a quello economica, è la formula magica che riesca ad azzeccare con assoluta precisione l'informazione cercata (che momentaneamente possiede solo Google)
per non parlare dei vari problemi logistici!
Supponendo di volerci interessare solo alle pagine in italiano
google ne ha in tutto circa 8 miliardi quindi ad occhio e croce potremmo dire che quelle italiana siano più o meno 100 milioni (se qualcuno ha fonti certe sono ben accette )supponiamo che disponiamo di un server super-potente che riesca ad analizzare completamente una pagina in circa 2-3 secondi
effettuando:
- test di visibilità testo;
- spam test;
- cloaking test;
- doorways-page test;
- individuazione dell'argomento chiave;
- ecc. ecc. ecc.
possiamo dire che l'insieme di tutte le operazioni lo faremo a circa un 10% delle pagine (stimando in questo modo di riuscire a capire se un sito è buono oppure presenta trucchetti) che in totale fa
3 secondi x 10.000.000 = 30.000.000 di secondi
supponendo che il super-server riesca a fare 100 analisi contemporaneamente
30.000.000 / 100 = 30.000 secondi
poi restano le altre 90.000.000 di pagine che dobbiamo comunque archiviare.
eliminando i test possiamo supporre che occorra 0,5 secondi per pagina per catalogarla correttamente0,5 secondi x 90.000.000 = 45.000.000 di secondi
supponiamo che il nostro super-server che è già impallato a fare quelle 100 operazioni in simultanea ne possa fare altre 100 di queste
45.000.000 / 100 = 45.000
quindi in totale:
45.000 + 30.000 = 75.000 secondi
75.000 / 60 = 1250 ore => 52 giorni
in pratica ogni 52 giorni potremmo aggiornare i nostri dati
e stiamo supponendo di avere già un ottimo software
e non stiamo considerando i server dedicati a contenere 100.000.000 di pagine e quelli che devono indirizzare le ricerche.
Può dare un'idea di quanto costi un giocattolino del genere!
-
Mah guarda, secondo me il vero problema non è tanto analizzare il sito "da dentro".
Il vero problema è cercare di creare gruppi di siti, analizzare tutto ciò che è esterno ed agire di conseguenza.
Per capire quali sono le formule magiche di un motore di ricerca in quanto all'analisi dei contenuti ci vuole ben poco, il problema viene da fuori.Per capire se un sito è affidabile o meno, se è spam o meno, è troppo poco analizzare le pagine.
Bisogna analizzare un sacco di fattori che manco ci immaginiamo.
Bisogna usare formule matematiche che neanche Eulero saprebbe leggere.Insomma, meglio lasciar perdere.
-
infatti
è per questo che ho detto "stiamo supponendo di avere già un ottimo software" cioè che tutti i problemi da te elencati siano già stati risolti matematicamente e bisogna "solo" valutare l'hardware.
-
si potrebbe raggranellare tanta potenza e banda, facendo elaborare
i dati ai pc degli utenti
-
Secondo me i soldi a dir la verità serviranno solo dopo averlo realizzato per farlo diventare sempre più grande, di certo bisogna crearlo, poi bisogna fare le varie cose, il mail server etc., all'inizio solo buona volontà, bisogna racimolare un po' di argomenti, in modo da essere individuati, se si riescono a racimolare soldi anche se si quadagna, ma prima, vanno messe le basi, il funzionamento, dopo le fonti.
-
A mio parere provare a competere con google, msn, yahoo, ecc... è una guerra persa in partenza. C' è da considerare poi il fatto che gli sterili risultati dei motori di ricerca sono una vera noia, non coinvolgono l'utente, non lo stimolano, non lo emozionano. Perchè allora non creare una bella interfaccia che:
- analizzi i risultati dai principali motori di ricerca per una determinata keyword.
- elaborare qualitativamente tali risultati premiando i siti secondo una determinata logica (tipo... il sito è presente in tutti i motori, o altro)
- elabori graficamente tali risultati dando valore aggiunto alla navigazione.
On line già si trovano sperimntazioni del genere, ma chi ci ha provato ancora non ha saputo attirare l'attenzione degli utenti.
Cosa ne pensate? Non sarebbe un progetto perseguibile?
-
Io dico di sì, ma...io ho provato a fare un piccolo motore di ricerca, ma è talmente difficile, credimi, non è così semplice come si pensa!:(
-
scusate il ritardo di quattro anni, ma dopo aver visto questa discussione, mi viene da intervenire spontaneamente, i moderatori probabilmente mi butteranno fuori, però io ho la soluzione, ed è a portata di tutti, ovvero, tutti possono creare un motore di ricerca. Ecco il tutorial che ho scritto:
sul mio blog, mi scuso di nuovo, però secondo me la mia(non dico che le altre non centrino) è quella che risponde di più alla domanda.
PS: non potevo inserire il link, incollatelo nella barra degli indirizzi.