• Moderatore

    Come funziona Google

    Ho girato un pò per la rete cercando di trovare info sull'implementazione seguita dagli ingegneri di google per stoccare le informazioni....

    ho trovato solo i soliti accenni al pagerank e blah blah blah....

    a me invece interessa capire quali metodologie il motore usa; per esempio si sa che ogni pagina di un sito ha un suo DocID che serve da puntatore, poi ogni sito viene identificato in 2 tabelle tramite URL e IP.....

    sarebbe interessante avere questo tipo di informazioni in modo da riuscire a capire e prevedere alcuni comportamenti anomali del motore, come per esempio di discuteva proprio ieri di un dominio che da PR 7 era schizzato fuori dall'indice per un banale cambio di DNS......

    penso che questi informazioni facciano parte della pratica dell'IR (tipo gli algoritmi per memorizzare l'indice, ecc....) tuttavia cercando si trovano solo teorie su teorie ma niente che si possa toccare con mano....

    qualcuno conosce qualche risorsa utile? mi ricordo di un progetto di un motore di ricerca OpenSource qualcuno ne conosce l'URL?


  • User Attivo

    Beh se nella rete hai trovato poco sui meccanismi di Google di sicuro è perchè non vengono rilasciate informazioni anche per non fare in modo che chi indicizza conoscendo i funzionamenti degli algoritmi possa trovare scorciatoie per l' indicizzazione a scapito della qualità dei contenuti.
    Per quel Motore open source forse in tendevi Nuch qui potrai trovare qualche info
    http://www.studiocappello.it/wm/Motori_di_ricerca_-strumento/motori_di_ricerca_open.html


  • Super User

    @paolino said:

    Ho girato un pò per la rete cercando di trovare info sull'implementazione seguita dagli ingegneri di google per stoccare le informazioni....

    http://labs.google.com/papers/gfs.html
    http://labs.google.com/papers/gfs-sosp2003.pdf
    http://www-db.stanford.edu/~backrub/google.html