• Super User

    in attesa di una sua risposta, ti do la mia piccola interpretazione da salumiere:

    su internet c'e' competizione, e c'e' l'uso dei trucchi piu' disparati per andare in testa alle SERP.

    se un motore di ricerca attuale si basasse sulle keyword, bastarebbe gonfiare le pagine di testo nascosto per andare primi. con risultati a dir poco vomitevoli per l'utente.

    i parametri che un motore di ricerca deve considerare oggi sono molto molto diversi, e spesso esterni al sito stesso.


  • User Attivo

    @LowLevel said:

    Sì, conosco bene sia Nutch che Lucene. Ti assicuro che Nutch è un motore di ricerca decente, ma troppo semplice per un'applicazione generalista sul Web.

    La fase di tokenizzazione è a dir poco elementare, il ranking si basa su normali formule di ITF applicate ai token (roba da anni settanta), le tecniche antispam sono praticamente inesistenti.

    Nutch è una ottima soluzione per una Intranet ed ovviamente è superiore a qualsiasi motorino che si limita a cercare keyword, ma quando bisogna operare sul Web ci vuole un motore di ricerca basato su concetti molto, molto diversi.

    pensi che all'origine google era esattamente come adesso? :ciauz:


  • Community Manager

    @kabodie said:

    pensi che all'origine google era esattamente come adesso? :ciauz:

    :mmm:

    @LowLevel said:

    Serve un mucchio di soldi.

    Il primo Google è stato progettato da due studenti universitari che avevano raccolto fondi per circa un milione di dollari.

    🙂


  • Super User

    Non vorrei generare equivoci: un motore di ricerca per una intranet ed un motore di ricerca per l'intero World Wide Web sono due bestie completamente differenti (quando scrivo "Web" mi riferisco al "World Wide Web").

    Occhio: non sto dicendo che Google è migliore di Nutch, sto dicendo semplicemente che i due non sono paragonabili perché si tratta di due strumenti completamente diversi.

    Nutch è una bicicletta e Google è un'astronave; era un'astronave anche il primo modello di Google. Se devi andare a fare la spesa, l'astronave non ti serve a niente: è meglio la bicicletta.

    Adesso, la progettazione di un motore di ricerca "generalista" e capace di funzionare bene indicizzando liberamente il Web comprende l'uso di tecniche che invece non servono quando si progetta un motore di ricerca interno ad un sito o un motore di ricerca per una Intranet.

    Nei casi più seri, la progettazione di un motore di ricerca per il Web comprende la riscrittura totale o parziale del sistema operativo, del file system o del web server sui quali il motore dovrà funzionare. Un motore di ricerca interno non richiede niente di tutto ciò, perché è un software che si installa ed amen.

    Circa la "ricerca di keyword", intendevo dire che indicizzare dei documenti di testo mettendo le parole che li compongono in un database SQL e poi interrogare il database per estrarre i documenti che contengono certe parole e ordinarli in base ad un indice ITF, è un giochetto. Bisogna saperlo fare bene, ma è comunque l'A-B-C, roba che si insegna agli universitari per fargli approcciare il mondo dell'information retrieval.

    Tutti i principali motori di ricerca per il Web (Google, Yahoo, MSN) compongono i risultati in base a ben altri fattori e questa è la ragione per la quale io spingo i webmaster ed i SEO ad allontanarsi dalla visione keyword-centrica che spesso possiedono.


  • Super User

    L'unico motore che attualmente sta riuscendo a battere google è questo:
    http://www.baidu.com/

    Il suo successo nasce da almeno tre cose:

    1. La cina è un mercato molto particolare;
    2. Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
    3. Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.

    Chissà che tra un pò non arrivino anche in altri paesi del mondo :mmm:


    [url=http://www.oria.rionegiudea.altervista.org/]image
    Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni


  • User Attivo

    @claudioweb said:

    L'unico motore che attualmente sta riuscendo a battere google è questo:
    http://www.baidu.com/

    Il suo successo nasce da almeno tre cose:

    1. La cina è un mercato molto particolare;
    2. Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
    3. Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.

    Chissà che tra un pò non arrivino anche in altri paesi del mondo :mmm:

    nn vorrei deluderti, ma baidu, è il nome cinese di google :fumato:


  • Super User

    Non vorrei deludere te... 😄 😄 😄 ma sei tu che ti sbagli.
    Da molti viene definito "Il Google Cinese" per paragonarlo a Google, ma in realtà con google non c'entra.

    Guarda un pò di news sull'argomento:

    http://news.google.it/news?hl=it&ned=it&ie=UTF-8&q=baidu+google&btnG=Cerca+nelle+News

    Credi ancora che Baidu è google in versione cinese? 😉


    [url=http://www.oria.rionegiudea.altervista.org/]image
    Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni


  • User Attivo

    😮 😮 😮 😮
    temo di aver fatto un po' di confusione :bho: :bho:


  • User Newbie

    salve a tutti a me servirebbero maggiorni nformazioni su nutch, e in modo particolare che cosa si deve modificare per fare indicizzare e far fare il crawl di una singola directory modificando(almeno io penso che si debba modificare qualcosa nel file urlcrawlfilter) in che modo?
    che sintassi si deve usare?
    aiuto!!!!!
    per me e' estremamente importante

    ciao

                poetaestinto80

  • Super User

    ciao e benvenuto sul forum

    possiamo continuare la discussione su nutch nel topic che hai aperto
    http://www.giorgiotave.it/forum/viewtopic.php?t=5998

    :ciauz:


  • User Attivo

    Ragazzi, bella discussione
    (devo dire che è da un pò che sono tentato nel realizzarne uno tutto mio 😄 )

    il problema più grosso, oltre a quello economica, è la formula magica che riesca ad azzeccare con assoluta precisione l'informazione cercata (che momentaneamente possiede solo Google)

    per non parlare dei vari problemi logistici!

    Supponendo di volerci interessare solo alle pagine in italiano
    google ne ha in tutto circa 8 miliardi quindi ad occhio e croce potremmo dire che quelle italiana siano più o meno 100 milioni (se qualcuno ha fonti certe sono ben accette :fumato: )

    supponiamo che disponiamo di un server super-potente che riesca ad analizzare completamente una pagina in circa 2-3 secondi

    effettuando:

    • test di visibilità testo;
    • spam test;
    • cloaking test;
    • doorways-page test;
    • individuazione dell'argomento chiave;
    • ecc. ecc. ecc.

    possiamo dire che l'insieme di tutte le operazioni lo faremo a circa un 10% delle pagine (stimando in questo modo di riuscire a capire se un sito è buono oppure presenta trucchetti) che in totale fa

    3 secondi x 10.000.000 = 30.000.000 di secondi

    supponendo che il super-server riesca a fare 100 analisi contemporaneamente

    30.000.000 / 100 = 30.000 secondi

    poi restano le altre 90.000.000 di pagine che dobbiamo comunque archiviare.
    eliminando i test possiamo supporre che occorra 0,5 secondi per pagina per catalogarla correttamente

    0,5 secondi x 90.000.000 = 45.000.000 di secondi

    supponiamo che il nostro super-server che è già impallato a fare quelle 100 operazioni in simultanea ne possa fare altre 100 di queste

    45.000.000 / 100 = 45.000

    quindi in totale:

    45.000 + 30.000 = 75.000 secondi

    75.000 / 60 = 1250 ore => 52 giorni

    in pratica ogni 52 giorni potremmo aggiornare i nostri dati 😮

    e stiamo supponendo di avere già un ottimo software

    e non stiamo considerando i server dedicati a contenere 100.000.000 di pagine e quelli che devono indirizzare le ricerche.

    Può dare un'idea di quanto costi un giocattolino del genere!


  • User Attivo

    Mah guarda, secondo me il vero problema non è tanto analizzare il sito "da dentro".

    Il vero problema è cercare di creare gruppi di siti, analizzare tutto ciò che è esterno ed agire di conseguenza.
    Per capire quali sono le formule magiche di un motore di ricerca in quanto all'analisi dei contenuti ci vuole ben poco, il problema viene da fuori.

    Per capire se un sito è affidabile o meno, se è spam o meno, è troppo poco analizzare le pagine.
    Bisogna analizzare un sacco di fattori che manco ci immaginiamo.
    Bisogna usare formule matematiche che neanche Eulero saprebbe leggere.

    Insomma, meglio lasciar perdere.


  • User Attivo

    infatti

    è per questo che ho detto "stiamo supponendo di avere già un ottimo software" cioè che tutti i problemi da te elencati siano già stati risolti matematicamente e bisogna "solo" valutare l'hardware.

    :ciauz:


  • User Attivo

    si potrebbe raggranellare tanta potenza e banda, facendo elaborare
    i dati ai pc degli utenti :fumato: :fumato:


  • User Newbie

    Secondo me i soldi a dir la verità serviranno solo dopo averlo realizzato per farlo diventare sempre più grande, di certo bisogna crearlo, poi bisogna fare le varie cose, il mail server etc., all'inizio solo buona volontà, bisogna racimolare un po' di argomenti, in modo da essere individuati, se si riescono a racimolare soldi anche se si quadagna, ma prima, vanno messe le basi, il funzionamento, dopo le fonti.


  • User

    A mio parere provare a competere con google, msn, yahoo, ecc... è una guerra persa in partenza. C' è da considerare poi il fatto che gli sterili risultati dei motori di ricerca sono una vera noia, non coinvolgono l'utente, non lo stimolano, non lo emozionano. Perchè allora non creare una bella interfaccia che:

    • analizzi i risultati dai principali motori di ricerca per una determinata keyword.
    • elaborare qualitativamente tali risultati premiando i siti secondo una determinata logica (tipo... il sito è presente in tutti i motori, o altro)
    • elabori graficamente tali risultati dando valore aggiunto alla navigazione.
      On line già si trovano sperimntazioni del genere, ma chi ci ha provato ancora non ha saputo attirare l'attenzione degli utenti.

    Cosa ne pensate? Non sarebbe un progetto perseguibile?


  • User Newbie

    Io dico di sì, ma...io ho provato a fare un piccolo motore di ricerca, ma è talmente difficile, credimi, non è così semplice come si pensa!:(


  • User Newbie

    scusate il ritardo di quattro anni, ma dopo aver visto questa discussione, mi viene da intervenire spontaneamente, i moderatori probabilmente mi butteranno fuori, però io ho la soluzione, ed è a portata di tutti, ovvero, tutti possono creare un motore di ricerca. Ecco il tutorial che ho scritto:


    sul mio blog, mi scuso di nuovo, però secondo me la mia(non dico che le altre non centrino) è quella che risponde di più alla domanda.
    PS: non potevo inserire il link, incollatelo nella barra degli indirizzi.


  • Bannato User

    @piac95 said:

    scusate il ritardo di quattro anni, ma dopo aver visto questa discussione, mi viene da intervenire spontaneamente, i moderatori probabilmente mi butteranno fuori, però io ho la soluzione, ed è a portata di tutti, ovvero, tutti possono creare un motore di ricerca. Ecco il tutorial che ho scritto:


    sul mio blog, mi scuso di nuovo, però secondo me la mia(non dico che le altre non centrino) è quella che risponde di più alla domanda.
    PS: non potevo inserire il link, incollatelo nella barra degli indirizzi.

    Per fare una scansione ai livelli di Google servono macchine da potenze impensabili.. rimane un'illusione "creare un motore di ricerca".

    Pensare che prima i siti si ricercavano su un libretto fornito da Pagine Gialle... 🙂


  • User Attivo

    Premesso che non sono affatto d'accordo con la filosofia "c'è già Google, è impossibile competere con loro", mi sembra che l'approccio sia di per sé sbagliato. Copiare Google avendo successo è certamente impossibile, anche avendo miliardi a disposizione, probabilmente (vedi Live/Bing). Del resto bisogna mettersi lato utente e chiedersi perché usare una copia di Google, anziché l'originale.

    Ma siamo sicuri che Google sia il meglio possibile ? Io per nulla. L'algoritmo di Google è diventato sempre più complesso, le pagine web si moltiplicano giorno dopo giorno e le cose peggioreranno esponenzialmente con la diffusione virale di Internet anche nei Paesi in via di sviluppo e nel terzo mondo. A me pare che le cose stiano iniziando a sfuggire di mano anche a loro: se un motore di ricerca non riesce ad evidenziare un contenuto valido, e lo seppellisce nelle SERP perché ad esempio non è neppure in grado di riconoscerne la paternità scambiandolo per duplicato (è solo un esempio, non voglio polemizzare su un dettaglio, la mia critica è strutturale), a mio parere non è poi quel mostro di perfezione che si lascia intendere. Se bisogna laurearsi in Ingegneria Informatica, oppure pagare centinaia o migliaia di euro un professionista SEO per evitare di cadere in qualche trappola, c'è qualcosa che a mio parere non funziona. Mi chiedo che senso abbia semplificare la vita agli utenti, rendendo possibile la creazione di un sito web in pochi minuti, se poi gli si taglia le gambe con l'indicizzazione rendendola un "affare di casta".

    E se fosse sbagliata l'impostazione ? E se esistessero modi diversi di ottenere lo stesso scopo ? E sopratutto, è pensabile che Google possa mantenere o addirittura incrementare il suo status di monopolista ? Siamo davvero condannati a sottostare alle regole di poche persone, partendo dai motori di ricerca arrivando ai sistemi operativi ? Ci rendiamo conto che se domani decidessero di farci pagare 10 euro a sito per indicizzare un sito web saremmo pressoché obbligati a pagarli, per evitare di sparire dalla circolazione da un giorno all'altro ? Guardiamo e-Bay e Paypal: situazione di monopolio, tariffe e provvigioni ai limiti del furto. Ma se vuoi vendere, sei obbligato ad andare da loro, visto che la maggior parte degli utenti lo utilizza.

    Mah... chi lo sa. Magari arriverà il giorno che nascerà un nuovo sistema di ricerca e indicizzazione dei contenuti, e noi diremo qualcosa tipo "si sa... le idee migliori sono le più semplici". 🙂 Eppure sul web è cambiato tutto... la nascita dei social network, del blogging di massa, i linguaggi di programmazione, etc. Solo i motori, per quanto sicuramente si siano evoluti, sono rimasti fondamentalmente e concettualmente gli stessi. Può darsi che il motivo sia che non si possa fare di meglio, ma non ci credo. La realtà è che la gente, e per "gente" intendo gli utenti in generale, me compreso, è pigra e tende a imbrancarsi per sentito dire, spesso a prescindere dalla qualità, e dal fatto che una cosa funzioni davvero bene. E si sa, quando si è monopolisti e in giro scarseggiano le idee, non c'è nessun motivo reale per migliorare (motivo per cui esistono gli "anticorpi istituzionali" per cercare quando possibile di arginare l'espansione monocorde di un singolo).