• User Attivo

    @claudioweb said:

    L'unico motore che attualmente sta riuscendo a battere google è questo:
    http://www.baidu.com/

    Il suo successo nasce da almeno tre cose:

    1. La cina è un mercato molto particolare;
    2. Ottima qualità, paragonabile con quella di google. Ho provato qualche ricerca e va alla grande. Gli ingegneri cinesi non scherzano.
    3. Permette un'ottima ricerca di mp3, che ne invoglia l'utilizzo. In Italia sarebbe già stato chiuso.

    Chissà che tra un pò non arrivino anche in altri paesi del mondo :mmm:

    nn vorrei deluderti, ma baidu, è il nome cinese di google :fumato:


  • Super User

    Non vorrei deludere te... 😄 😄 😄 ma sei tu che ti sbagli.
    Da molti viene definito "Il Google Cinese" per paragonarlo a Google, ma in realtà con google non c'entra.

    Guarda un pò di news sull'argomento:

    http://news.google.it/news?hl=it&ned=it&ie=UTF-8&q=baidu+google&btnG=Cerca+nelle+News

    Credi ancora che Baidu è google in versione cinese? 😉


    [url=http://www.oria.rionegiudea.altervista.org/]image
    Notizie su [url=http://www.oria.rionegiudea.altervista.org/]Oria. Risultati del [url=http://www.oria.rionegiudea.altervista.org/torneo_oria_2005/]Torneo dei Rioni


  • User Attivo

    😮 😮 😮 😮
    temo di aver fatto un po' di confusione :bho: :bho:


  • User Newbie

    salve a tutti a me servirebbero maggiorni nformazioni su nutch, e in modo particolare che cosa si deve modificare per fare indicizzare e far fare il crawl di una singola directory modificando(almeno io penso che si debba modificare qualcosa nel file urlcrawlfilter) in che modo?
    che sintassi si deve usare?
    aiuto!!!!!
    per me e' estremamente importante

    ciao

                poetaestinto80

  • Super User

    ciao e benvenuto sul forum

    possiamo continuare la discussione su nutch nel topic che hai aperto
    http://www.giorgiotave.it/forum/viewtopic.php?t=5998

    :ciauz:


  • User Attivo

    Ragazzi, bella discussione
    (devo dire che è da un pò che sono tentato nel realizzarne uno tutto mio 😄 )

    il problema più grosso, oltre a quello economica, è la formula magica che riesca ad azzeccare con assoluta precisione l'informazione cercata (che momentaneamente possiede solo Google)

    per non parlare dei vari problemi logistici!

    Supponendo di volerci interessare solo alle pagine in italiano
    google ne ha in tutto circa 8 miliardi quindi ad occhio e croce potremmo dire che quelle italiana siano più o meno 100 milioni (se qualcuno ha fonti certe sono ben accette :fumato: )

    supponiamo che disponiamo di un server super-potente che riesca ad analizzare completamente una pagina in circa 2-3 secondi

    effettuando:

    • test di visibilità testo;
    • spam test;
    • cloaking test;
    • doorways-page test;
    • individuazione dell'argomento chiave;
    • ecc. ecc. ecc.

    possiamo dire che l'insieme di tutte le operazioni lo faremo a circa un 10% delle pagine (stimando in questo modo di riuscire a capire se un sito è buono oppure presenta trucchetti) che in totale fa

    3 secondi x 10.000.000 = 30.000.000 di secondi

    supponendo che il super-server riesca a fare 100 analisi contemporaneamente

    30.000.000 / 100 = 30.000 secondi

    poi restano le altre 90.000.000 di pagine che dobbiamo comunque archiviare.
    eliminando i test possiamo supporre che occorra 0,5 secondi per pagina per catalogarla correttamente

    0,5 secondi x 90.000.000 = 45.000.000 di secondi

    supponiamo che il nostro super-server che è già impallato a fare quelle 100 operazioni in simultanea ne possa fare altre 100 di queste

    45.000.000 / 100 = 45.000

    quindi in totale:

    45.000 + 30.000 = 75.000 secondi

    75.000 / 60 = 1250 ore => 52 giorni

    in pratica ogni 52 giorni potremmo aggiornare i nostri dati 😮

    e stiamo supponendo di avere già un ottimo software

    e non stiamo considerando i server dedicati a contenere 100.000.000 di pagine e quelli che devono indirizzare le ricerche.

    Può dare un'idea di quanto costi un giocattolino del genere!


  • User Attivo

    Mah guarda, secondo me il vero problema non è tanto analizzare il sito "da dentro".

    Il vero problema è cercare di creare gruppi di siti, analizzare tutto ciò che è esterno ed agire di conseguenza.
    Per capire quali sono le formule magiche di un motore di ricerca in quanto all'analisi dei contenuti ci vuole ben poco, il problema viene da fuori.

    Per capire se un sito è affidabile o meno, se è spam o meno, è troppo poco analizzare le pagine.
    Bisogna analizzare un sacco di fattori che manco ci immaginiamo.
    Bisogna usare formule matematiche che neanche Eulero saprebbe leggere.

    Insomma, meglio lasciar perdere.


  • User Attivo

    infatti

    è per questo che ho detto "stiamo supponendo di avere già un ottimo software" cioè che tutti i problemi da te elencati siano già stati risolti matematicamente e bisogna "solo" valutare l'hardware.

    :ciauz:


  • User Attivo

    si potrebbe raggranellare tanta potenza e banda, facendo elaborare
    i dati ai pc degli utenti :fumato: :fumato:


  • User Newbie

    Secondo me i soldi a dir la verità serviranno solo dopo averlo realizzato per farlo diventare sempre più grande, di certo bisogna crearlo, poi bisogna fare le varie cose, il mail server etc., all'inizio solo buona volontà, bisogna racimolare un po' di argomenti, in modo da essere individuati, se si riescono a racimolare soldi anche se si quadagna, ma prima, vanno messe le basi, il funzionamento, dopo le fonti.


  • User

    A mio parere provare a competere con google, msn, yahoo, ecc... è una guerra persa in partenza. C' è da considerare poi il fatto che gli sterili risultati dei motori di ricerca sono una vera noia, non coinvolgono l'utente, non lo stimolano, non lo emozionano. Perchè allora non creare una bella interfaccia che:

    • analizzi i risultati dai principali motori di ricerca per una determinata keyword.
    • elaborare qualitativamente tali risultati premiando i siti secondo una determinata logica (tipo... il sito è presente in tutti i motori, o altro)
    • elabori graficamente tali risultati dando valore aggiunto alla navigazione.
      On line già si trovano sperimntazioni del genere, ma chi ci ha provato ancora non ha saputo attirare l'attenzione degli utenti.

    Cosa ne pensate? Non sarebbe un progetto perseguibile?


  • User Newbie

    Io dico di sì, ma...io ho provato a fare un piccolo motore di ricerca, ma è talmente difficile, credimi, non è così semplice come si pensa!:(


  • User Newbie

    scusate il ritardo di quattro anni, ma dopo aver visto questa discussione, mi viene da intervenire spontaneamente, i moderatori probabilmente mi butteranno fuori, però io ho la soluzione, ed è a portata di tutti, ovvero, tutti possono creare un motore di ricerca. Ecco il tutorial che ho scritto:


    sul mio blog, mi scuso di nuovo, però secondo me la mia(non dico che le altre non centrino) è quella che risponde di più alla domanda.
    PS: non potevo inserire il link, incollatelo nella barra degli indirizzi.


  • Bannato User

    @piac95 said:

    scusate il ritardo di quattro anni, ma dopo aver visto questa discussione, mi viene da intervenire spontaneamente, i moderatori probabilmente mi butteranno fuori, però io ho la soluzione, ed è a portata di tutti, ovvero, tutti possono creare un motore di ricerca. Ecco il tutorial che ho scritto:


    sul mio blog, mi scuso di nuovo, però secondo me la mia(non dico che le altre non centrino) è quella che risponde di più alla domanda.
    PS: non potevo inserire il link, incollatelo nella barra degli indirizzi.

    Per fare una scansione ai livelli di Google servono macchine da potenze impensabili.. rimane un'illusione "creare un motore di ricerca".

    Pensare che prima i siti si ricercavano su un libretto fornito da Pagine Gialle... 🙂


  • User Attivo

    Premesso che non sono affatto d'accordo con la filosofia "c'è già Google, è impossibile competere con loro", mi sembra che l'approccio sia di per sé sbagliato. Copiare Google avendo successo è certamente impossibile, anche avendo miliardi a disposizione, probabilmente (vedi Live/Bing). Del resto bisogna mettersi lato utente e chiedersi perché usare una copia di Google, anziché l'originale.

    Ma siamo sicuri che Google sia il meglio possibile ? Io per nulla. L'algoritmo di Google è diventato sempre più complesso, le pagine web si moltiplicano giorno dopo giorno e le cose peggioreranno esponenzialmente con la diffusione virale di Internet anche nei Paesi in via di sviluppo e nel terzo mondo. A me pare che le cose stiano iniziando a sfuggire di mano anche a loro: se un motore di ricerca non riesce ad evidenziare un contenuto valido, e lo seppellisce nelle SERP perché ad esempio non è neppure in grado di riconoscerne la paternità scambiandolo per duplicato (è solo un esempio, non voglio polemizzare su un dettaglio, la mia critica è strutturale), a mio parere non è poi quel mostro di perfezione che si lascia intendere. Se bisogna laurearsi in Ingegneria Informatica, oppure pagare centinaia o migliaia di euro un professionista SEO per evitare di cadere in qualche trappola, c'è qualcosa che a mio parere non funziona. Mi chiedo che senso abbia semplificare la vita agli utenti, rendendo possibile la creazione di un sito web in pochi minuti, se poi gli si taglia le gambe con l'indicizzazione rendendola un "affare di casta".

    E se fosse sbagliata l'impostazione ? E se esistessero modi diversi di ottenere lo stesso scopo ? E sopratutto, è pensabile che Google possa mantenere o addirittura incrementare il suo status di monopolista ? Siamo davvero condannati a sottostare alle regole di poche persone, partendo dai motori di ricerca arrivando ai sistemi operativi ? Ci rendiamo conto che se domani decidessero di farci pagare 10 euro a sito per indicizzare un sito web saremmo pressoché obbligati a pagarli, per evitare di sparire dalla circolazione da un giorno all'altro ? Guardiamo e-Bay e Paypal: situazione di monopolio, tariffe e provvigioni ai limiti del furto. Ma se vuoi vendere, sei obbligato ad andare da loro, visto che la maggior parte degli utenti lo utilizza.

    Mah... chi lo sa. Magari arriverà il giorno che nascerà un nuovo sistema di ricerca e indicizzazione dei contenuti, e noi diremo qualcosa tipo "si sa... le idee migliori sono le più semplici". 🙂 Eppure sul web è cambiato tutto... la nascita dei social network, del blogging di massa, i linguaggi di programmazione, etc. Solo i motori, per quanto sicuramente si siano evoluti, sono rimasti fondamentalmente e concettualmente gli stessi. Può darsi che il motivo sia che non si possa fare di meglio, ma non ci credo. La realtà è che la gente, e per "gente" intendo gli utenti in generale, me compreso, è pigra e tende a imbrancarsi per sentito dire, spesso a prescindere dalla qualità, e dal fatto che una cosa funzioni davvero bene. E si sa, quando si è monopolisti e in giro scarseggiano le idee, non c'è nessun motivo reale per migliorare (motivo per cui esistono gli "anticorpi istituzionali" per cercare quando possibile di arginare l'espansione monocorde di un singolo).


  • User Attivo

    Competere con google magari no ma fare un piccolo motore tematico e specializzato solo a 2 o 3 argomenti potrebbe essere interessante con nutch.


  • User Newbie

    Personalmente credo che l'alternativa a Google sia possibile e perfino auspicabile, visto che le situazioni di monopolio generano sempre qualche problema (vedi il post blogfolio.archimede.nu/agenzia-di-comunicazione/2010/06/google-caffeine.html).
    Con alcuni amici stiamo provando a realizzare un motore di ricerca che lavori su una connessione semantica tra le parole chiave delle query di ricerca degli utenti e dei meta di catalogazione inseriti dai web master secondo dei criteri prestabiliti.

    I risultati sono interessanti, poiché offrono strumenti chiari per il posizionamento ai web master, e nello stesso tempo rendono la ricerca per gli utenti più utile, perché più precisa. Ma siamo ancora in itinere, e il viaggio è lungo!


  • User

    Sono un pò restio pur stimando Beppe Grillo, sul fatto che Google sia opera di uno smanettone.......del tipo "i ragazzi del computer" telefilm degli anni '80.
    Io credo che l?immaginario collettivo considera ancora oggi i giovani fondatori di Google ,Larry Page e Sergey Brin due smanettoni che a forza di passare ore davanti ad un pc , tra sandwich e pocpcorn, si sono inventati un motore di ricerca.

    In realtà Larry Page e Sergey Brin avevano già le idee molto chiare su ciò che volevano realizzare, basta dare un occhio al loro CV di studi per rendersi conto: andate su Google e links su corporate per vedere....

    Il loro successo non nasce dal caso; ma dall?uso corretto della conoscenza; se si fossero persi per strada sarebbero rimasti due perfetti sconosciuti e Google non esisterebbe.

    Questo principio si applica ovviamente in ogni settore.......l'improvvisazione non porta nè successo nè buoni risultati, nel senso più ampio del termine ovviamente, senza voler offendere nessuno. Un motore di ricerca Made in Italy non è affatto una cattiva idea.

    Buona domenica a tutti 🙂 Raf

    @dade said:

    mi diverto a leggere i vostri interventi,sono sempre molto oculati e volti a comprendere sempre meglio i segreti del dio Google...qualche anno fa Grillo ha detto che google è stato inventato da un ragazzo adolescente,non so se risponde a verità...comunque oggi sto ragazzino sta mettendo in difficoltà menti brillanti di tutto il mondo,giovani e meno giovani a scoprirne i segreti....a sto punto mi domando,creare un motore di ricerca italiano,che censisce i siti italiani solo ed esclusivamente sui contenuti e servizi all' utente senza uso di algoritmi,ma catalogandoli quasi a mano,in modo da dare servizi veritieri e fidati,....che un giorno possa fare concorrenza almeno in italia ai giganti,gg,msn,yahoo e altri...non sarebbe una bella idea...tanto la maniera di pubblicizzarlo non sarebbe un mistero per voi....non è un idea...o è una cazzata sparata da un incompetente????....tanto nell' immaginatrio mio e di altri siete gentre coi coglioni(ops:attributi)....


  • User Newbie

    La discussione sulla realizzazione di un motore di ricerca mi interessa molto e la trovo "stimolante".

    In passato ho creato un motore di ricerca ma utilizzando Google e Yahoo come "intermediari" per filtrare i contenuti. Praticamente utilizzando una o più parole chiavi (Esempio. Hotel Bari) entravo in google e yahoo scaricavo tutte le loro pagine, filtravo tutti i link contenuti (url ai siti), entravo in ogni pagina del sito utilizzando gli stessi url e prendevo il titolo della pagina, la descrizione, le keyword principali. Poi mettevo tutto nel Database. Un'altra applicazione che "schedulava" in orari diversi "ripuliva" i doppioni o i dati non errati.
    Morale che in una giornata schedulavo circa 50.000 / 60.000 pagine web con un semplice "computerino" e una connessione ADSL.
    Il tutto realizzato con Php e mysql. In 30 giorni riuscivo a "indicizzare" circa 1.500.000.
    Certo poca cosa rispetto a Google, ma i risultati che volevo ottenere avevano uno scopo "didattico".

    Se oggi dovessi a distanza di qualche anno realizzare un motore di ricerca vero, senza "trucchi" da fenomeno di scrapping nascerebbero da un'analisi attenta della struttura dati e da un agoritmo ad Hoc.
    I risultati di Google spesso... anzi direi sempre più spesso, stanno diventando poco attendibili, sia per motivi commerciali dell'azienda sia per tecniche SEO 8legali e non) che ormai tutti conoscono.
    Google ha il grosso vantaggio di essere famoso e quindi chi realizza siti web spesso sviluppa file ad hoc per lui (vedi sitemap ecc.).

    Comunque non mollate questa discussione e continuate a mettere idee... magari si arriva da qualche parte!


  • User Newbie

    Il problema è che Google sta diventando più una immensa Intranet...infatti i criteri di ricerca adottati sono molto diversi da quelli adottati fino a 3 anni fa e molto meno imparziali. D'altronde che senso ha favorire un'azienda che non paga quando deve al contempo garantire visibilità a chi paga per usare Adwords ? (Questo è solo un esempio) quindi a mio avviso i cosidetti algoritmi usati oggi sono degli algoritmi puramente commerciali.

    PREMESSA FATTA - Mi piacerebbe creare un motore di ricerca ma localizzato ad un'area geografica molto circoscritta. Ho molte idee perchè vorrei collegarlo anche ad un marketplace/social network. Ma esplicitamente sarà un sito commerciale che però darà maggiore visibilità ai più meritevoli e attivi. Tutti avranno la possibilità di avere le prime posizioni ma dovranno guadagnarsele e non pagando. Non so se sia meglio creare un grande Marketplace con un buon motore di ricerca interno oppure un motore di ricerca localizzato ad un'area che sia strettamente collegato al marketplace/social network.

    E' un progetto pilota che vorrei usare in Sudamerica vista la facilità anche di avere connessioni WI FI gratuite in città, praticamente chiunque ha un sito web e un account e.mail e la manodopera costa meno. Mi rendo conto che ci sarebbe da lavorare per almeno 1 anno senza vedere nemmeno 1 centesimo però la cosa mi interesserebbe molto.

    Se qualcuno di voi ha voglia di parlarne contattatemi pure


    Saluti a tutti e Buon Natale :smile5:

    P.S. non pubblico qua la mia e.mail per evitare di ricevere bombardamenti di spammers!!...in questo modo se uno spammer c'è...almeno visiterà il website :wink3: