[0033] La FIG. 4 è un diagramma d'esempio di unità di ricerca di contenuto web 310. Come mostrato in FIG. 4, l'unità di ricerca di contenuto su web può includere uno spider web 410, uno storage di contenuto web 420, un indicizzatore di contenuto web 430, un indice di ricerca 440, e un motore di ricerca 450. Lo spider 410, lo storage 420, l'indicizzatore di contenuto web 430, l'indice di ricerca 440 e il motore di ricerca 450 possono essere implementati come componenti hardware o software.
[0034] Lo spider 410 può trovare e recuperare il contenuto web (ad es: documenti web) e fornire il contenuto recuperato allo storage web 420 e all'indicizzatore 430. Ad esempio lo spider 410 può inviare una richiesta a un server web per un documento web, scaricare l'intero documento web e poi fornirlo allo storage 420 e all'indicizzatore di contenuto 430. Lo storage 420 può archiviare l'informazione relativa ai documenti web come testo, dati immagine, dati video e/o dati audio associati ai documenti web o i link al testo, ai dati immagine, ai dati video e/o ai dati audio.
[0035] L'indicizzatore di contenuto web 430 può indicizzare i documenti web per creare gli indici di ricerca web 440. Ad esempio l'indicizzatore di contenuto web 430 può prendere il testo o altri dati di un certo documento spiderizzato, estratte i singoli termini o altri dati dal testo del docmento, e ordinare questi termini o altri dati (ad es: alfabeticamente) nell'indice di ricerca 440. Per il testo ad esempio l'indicizzatore del contenuto 430 può identificare le parole che ricorrono meno frequentemente (ad esempio ricorrono mendo i una soglia di un numero di volte in un insieme di documenti) come altri dati possono essere inclusi nell'indice per il testo.
[0036] Possono essere usate altre tecniche per estratte e indicizzare il contenuto, che sono più complesse rispetto alla semplice indicizzazione a livello di parole, include le tecniche per indicizzare i dati XML, i dati immagini, i dati video, i dati audio, etc. Per i dati immagine l'indicizzatore di contenuto 430 può identificare una o più caratteristiche dell'immagine (ad es.: uno o più colori dominanti dell'immagine) come altri dati da includere nell'indice per i dati immagine. Per i video, l'indicizzatore di contenuti web 430 può identificare una o più caratteristiche del video (ad es: uno o più colori dominanti dei frame dei dati video, o una o più frequenze delle porzioni audio dei dati video che non ricorrono con regolarità) come altri dati possono essere inclusi nell'indice per i dati video. Per i dati audio, l'indicizzatore di contenuto 430 può identificare una o più caratteristiche audio (ad es: uno o più frequenze che non ricorrono frequentemente) come altri dati da includere nell'indice per i dati audio. Ogni voce nell'indice di ricerca web 440 può contenere un termine o altri dati archiviati in associazione con una lista di documenti in cui il termine o altri dati appaiono e la locazione dentro il documento documento il termine o altri dati appaiono.
[0037] Il motore di ricerca web 450 può ricercare l'indice di ricerca web 440 basandosi sulle query di ricerca che riceve, per individuare i termini delle query di ricerca con i termini o gli altri dati (ad es. dati video, dati immagine, dati audio) contenuti nelle voci nell'indice di ricerca 440. Il motore di ricerca web 450 può recuperare una lista di documenti corrispondenti da ogni voce nell'indice di ricerca web 440 che corrisponde a un termine della query di ricerca. Gli elenchi di documenti restituiti da una o più voci nell'indice di ricerca web 440 può essere restituito come risultati di ricerca. In una implementazione ogni risultato di risultati di ricerca web può includere un URL associato a un documento risultato della ricerca e, possibilmente, uno snippet di contenuto estratto dal corrispondente documento risultato della ricerca.