• User

    Creare un motore di ricerca

    mi diverto a leggere i vostri interventi,sono sempre molto oculati e volti a comprendere sempre meglio i segreti del dio Google...qualche anno fa Grillo ha detto che google è stato inventato da un ragazzo adolescente,non so se risponde a verità...comunque oggi sto ragazzino sta mettendo in difficoltà menti brillanti di tutto il mondo,giovani e meno giovani a scoprirne i segreti....a sto punto mi domando,creare un motore di ricerca italiano,che censisce i siti italiani solo ed esclusivamente sui contenuti e servizi all' utente senza uso di algoritmi,ma catalogandoli quasi a mano,in modo da dare servizi veritieri e fidati,....che un giorno possa fare concorrenza almeno in italia ai giganti,gg,msn,yahoo e altri...non sarebbe una bella idea...tanto la maniera di pubblicizzarlo non sarebbe un mistero per voi....non è un idea...o è una cazzata sparata da un incompetente????....tanto nell' immaginatrio mio e di altri siete gentre coi coglioni(ops:attributi)....


  • Super User

    Serve un mucchio di soldi.

    Il primo Google è stato progettato da due studenti universitari che avevano raccolto fondi per circa un milione di dollari.

    Il Google moderno è stato progettato e viene fatto crescere da centinaia di ingegneri, che hanno a disposizione fondi per diverse decine di milioni di dollari.

    Serve un mucchio di soldi.


  • Super User

    ho editato il titolo per far capire di cosa si parla... 🙂

    p.s.: Serve un mucchio di soldi e poi l'idea di un motore senza algorimti ma fondato sull'umore degli editori non è una grancosa a mio parere


  • User Attivo

    cerca la storia di google su google.....
    cmq, la realizzazione di per se di un motore di ricerca non è costosa, ma sale con l'aumentare delle pagine da indicizzare.
    era nei miei progetti, realizzare un motore di ricerca, avevo realizzato il software (seppur certo assolutamente non paragonabile ai motori che tutti conoscono) ma funzionava.
    Non l'ho messo online, perchè non credo che avrebbe successo.
    Perchè fare un ricerca con un motore sconosciuto, quando c'è google, msn, yahoo.. virgilio... che avendo mezzi, menti e $$ enormemente migliori di chiunque inizi adesso?
    non credo si potrebbe mai arrivare neanche lontanamente a competere con loro.
    e di motori (dico quelli sconosciuti) ne esistono davvero centinaia.. ma chi li conosce e li usa ?
    nessuno 😞

    ciao :bho:


  • Super User

    @kabodie said:

    la realizzazione di per se di un motore di ricerca non è costosa

    Insomma... dipende dal tipo di motore che si intende realizzare.

    Anche mantenendo minimo il numero di pagine inizialmente indicizzate, se si vuole progettare un motore serio e i cui risultati siano di qualità è indispensabile dotarlo sin dall'inizio di caratteristiche tecniche piuttosto avanzate. E questo richiede investimenti consistenti.


  • Super User

    @dade said:

    ma catalogandoli quasi a mano,in modo da dare servizi veritieri e fidati,....che un giorno possa fare concorrenza almeno in italia ai giganti,gg,msn,yahoo e altri...non sarebbe una bella idea...tanto la maniera di pubblicizzarlo non sarebbe un mistero per voi....non è un idea...o è una cazzata sparata da un incompetente????...

    Ce ne sono già abbastanza online di siti così. Il più famoso è dmoz, poi ci sono anche siti molto più amatoriali che raccolgono link "a mano". Secondo me sarebbe solo un modo per buttare via soldi.

    ...rispondo anche a LowLevel e a kabodie: attualmente ci sono alcuni motori che in un futuro nemmeno molto lontano potrebbero dare filo da torcere a Google. Non gli toglieranno il monopolio, almeno per 20 anni, però comunque si potrebbero conquistare la fiducia di una gran fetta di navigatori.
    Ho letto un articolo a riguardo, però non ricordo se italiano o inglese, il cui titolo era "Il Google del futuro" o una cosa del genere.


  • User Attivo

    cmq vi invito a guardare a a provare questi
    http://www.openwebspider.org/
    e
    http://www.nutch.org
    :ciauz:


  • User Attivo

    @LowLevel said:

    Insomma... dipende dal tipo di motore che si intende realizzare.

    Anche mantenendo minimo il numero di pagine inizialmente indicizzate, se si vuole progettare un motore serio e i cui risultati siano di qualità è indispensabile dotarlo sin dall'inizio di caratteristiche tecniche piuttosto avanzate. E questo richiede investimenti consistenti.

    non serve granchè...
    http://wiki.apache.org/nutch/HardwareRequirements
    si riferisce a nutch, che ti assicuro non è motore da 4 soldi :fumato:


  • Super User

    @kabodie said:

    si riferisce a nutch, che ti assicuro non è motore da 4 soldi

    Sì, conosco bene sia Nutch che Lucene. Ti assicuro che Nutch è un motore di ricerca decente, ma troppo semplice per un'applicazione generalista sul Web.

    La fase di tokenizzazione è a dir poco elementare, il ranking si basa su normali formule di ITF applicate ai token (roba da anni settanta), le tecniche antispam sono praticamente inesistenti.

    Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.


  • User Attivo

    @LowLevel said:

    Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.
    Ciao Low,
    Non afferro il concetto, cosa intendi tra operare sul web e cercare per keywords? :mmm:


  • Super User

    in attesa di una sua risposta, ti do la mia piccola interpretazione da salumiere:

    su internet c'e' competizione, e c'e' l'uso dei trucchi piu' disparati per andare in testa alle SERP.

    se un motore di ricerca attuale si basasse sulle keyword, bastarebbe gonfiare le pagine di testo nascosto per andare primi. con risultati a dir poco vomitevoli per l'utente.

    i parametri che un motore di ricerca deve considerare oggi sono molto molto diversi, e spesso esterni al sito stesso.


  • User Attivo

    @LowLevel said:

    Sì, conosco bene sia Nutch che Lucene. Ti assicuro che Nutch è un motore di ricerca decente, ma troppo semplice per un'applicazione generalista sul Web.

    La fase di tokenizzazione è a dir poco elementare, il ranking si basa su normali formule di ITF applicate ai token (roba da anni settanta), le tecniche antispam sono praticamente inesistenti.

    Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.

    pensi che all'origine google era esattamente come adesso? :ciauz:


  • Community Manager

    @kabodie said:

    pensi che all'origine google era esattamente come adesso? :ciauz:

    :mmm:

    @LowLevel said:

    Serve un mucchio di soldi.

    Il primo Google è stato progettato da due studenti universitari che avevano raccolto fondi per circa un milione di dollari.

    🙂


  • Super User

    Non vorrei generare equivoci: un motore di ricerca per una intranet ed un motore di ricerca per l'intero World Wide Web sono due bestie completamente differenti (quando scrivo "Web" mi riferisco al "World Wide Web").

    Occhio: non sto dicendo che Google è migliore di Nutch, sto dicendo semplicemente che i due non sono paragonabili perché si tratta di due strumenti completamente diversi.

    Nutch è una bicicletta e Google è un'astronave; era un'astronave anche il primo modello di Google. Se devi andare a fare la spesa, l'astronave non ti serve a niente: è meglio la bicicletta.

    Adesso, la progettazione di un motore di ricerca "generalista" e capace di funzionare bene indicizzando liberamente il Web comprende l'uso di tecniche che invece non servono quando si progetta un motore di ricerca interno ad un sito o un motore di ricerca per una Intranet.

    Nei casi più seri, la progettazione di un motore di ricerca per il Web comprende la riscrittura totale o parziale del sistema operativo, del file system o del web server sui quali il motore dovrà funzionare. Un motore di ricerca interno non richiede niente di tutto ciò, perché è un software che si installa ed amen.

    Circa la "ricerca di keyword", intendevo dire che indicizzare dei documenti di testo mettendo le parole che li compongono in un database SQL e poi interrogare il database per estrarre i documenti che contengono certe parole e ordinarli in base ad un indice ITF, è un giochetto. Bisogna saperlo fare bene, ma è comunque l'A-B-C, roba che si insegna agli universitari per fargli approcciare il mondo dell'information retrieval.

    Tutti i principali motori di ricerca per il Web (Google, Yahoo, MSN) compongono i risultati in base a ben altri fattori e questa è la ragione per la quale io spingo i webmaster ed i SEO ad allontanarsi dalla visione keyword-centrica che spesso possiedono.


  • Super User

    L'unico motore che attualmente sta riuscendo a battere google è questo:
    http://www.baidu.com/

    Il suo successo nasce da almeno tre cose:

    1. La cina è un mercato molto particolare;
    2. Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
    3. Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.

    Chissà che tra un pò non arrivino anche in altri paesi del mondo :mmm:


    [url=http://www.oria.rionegiudea.altervista.org/]image
    Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni


  • User Attivo

    @claudioweb said:

    L'unico motore che attualmente sta riuscendo a battere google è questo:
    http://www.baidu.com/

    Il suo successo nasce da almeno tre cose:

    1. La cina è un mercato molto particolare;
    2. Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
    3. Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.

    Chissà che tra un pò non arrivino anche in altri paesi del mondo :mmm:

    nn vorrei deluderti, ma baidu, è il nome cinese di google :fumato:


  • Super User

    Non vorrei deludere te... 😄 😄 😄 ma sei tu che ti sbagli.
    Da molti viene definito "Il Google Cinese" per paragonarlo a Google, ma in realtà con google non c'entra.

    Guarda un pò di news sull'argomento:

    http://news.google.it/news?hl=it&ned=it&ie=UTF-8&q=baidu+google&btnG=Cerca+nelle+News

    Credi ancora che Baidu è google in versione cinese? 😉


    [url=http://www.oria.rionegiudea.altervista.org/]image
    Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni


  • User Attivo

    😮 😮 😮 😮
    temo di aver fatto un po' di confusione :bho: :bho:


  • User Newbie

    salve a tutti a me servirebbero maggiorni nformazioni su nutch, e in modo particolare che cosa si deve modificare per fare indicizzare e far fare il crawl di una singola directory modificando(almeno io penso che si debba modificare qualcosa nel file urlcrawlfilter) in che modo?
    che sintassi si deve usare?
    aiuto!!!!!
    per me e' estremamente importante

    ciao

                poetaestinto80

  • Super User

    ciao e benvenuto sul forum

    possiamo continuare la discussione su nutch nel topic che hai aperto
    http://www.giorgiotave.it/forum/viewtopic.php?t=5998

    :ciauz: