La discussione sulla realizzazione di un motore di ricerca mi interessa molto e la trovo "stimolante".
In passato ho creato un motore di ricerca ma utilizzando Google e Yahoo come "intermediari" per filtrare i contenuti. Praticamente utilizzando una o più parole chiavi (Esempio. Hotel Bari) entravo in google e yahoo scaricavo tutte le loro pagine, filtravo tutti i link contenuti (url ai siti), entravo in ogni pagina del sito utilizzando gli stessi url e prendevo il titolo della pagina, la descrizione, le keyword principali. Poi mettevo tutto nel Database. Un'altra applicazione che "schedulava" in orari diversi "ripuliva" i doppioni o i dati non errati.
Morale che in una giornata schedulavo circa 50.000 / 60.000 pagine web con un semplice "computerino" e una connessione ADSL.
Il tutto realizzato con Php e mysql. In 30 giorni riuscivo a "indicizzare" circa 1.500.000.
Certo poca cosa rispetto a Google, ma i risultati che volevo ottenere avevano uno scopo "didattico".
Se oggi dovessi a distanza di qualche anno realizzare un motore di ricerca vero, senza "trucchi" da fenomeno di scrapping nascerebbero da un'analisi attenta della struttura dati e da un agoritmo ad Hoc.
I risultati di Google spesso... anzi direi sempre più spesso, stanno diventando poco attendibili, sia per motivi commerciali dell'azienda sia per tecniche SEO 8legali e non) che ormai tutti conoscono.
Google ha il grosso vantaggio di essere famoso e quindi chi realizza siti web spesso sviluppa file ad hoc per lui (vedi sitemap ecc.).
Comunque non mollate questa discussione e continuate a mettere idee... magari si arriva da qualche parte!