[domanda]il punto della situazione

giorgiotave

http://www.teecno.it/osvi/

C'è qualche bug...ma lodevole! Credo che si può implementare il discorso cache

Era uno dei progetti

Anche se è solo un test.

Osvi, apri un thread dove spieghi le modifiche che hai fatto.

Presto ci sarà anche un altro utente che mostrerà la sua versione.

Dovremmo prevedere anche dei zip per ogni utente. Ora scegliamo il tipo specifico di licenza

osvi

ok
5 minuti e lo faccio
intanto ho scritto la prima parte del parser robots
http://webmatters.it/teecno2/robots.php
pulisce linee e toglie i commenti
manca solo la parte "leggi solo Teecnobot e *"

giorgiotave

C'è un altro utente che forse stasera riesce ad implementare la lettura del Robots.txt

Giorgio

ray71

@Giorgiotave said:

Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

Un buon punto di partenza per farsi un idea delle "altre" cose da fare, puo' essere questo (immagino che lo abbiate gia' letto, comunque).

Ovviamente ha ben poco a che vedere con il Google di oggi, ma da un idea di quali sono gli aspetti principali di cui tenere conto.

@Giorgiotave said:

Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

Ovviamente ci sono da contare tutte le pagine interne.

Infatti, servono degli "spider" autonomi, non pagine web, ma programmi che girano 24/24 esplorando il web e raccogliendo URLs.

Per i blog, e' forse anche piu' facile: basta registrarsi ai feed RSS.

@Giorgiotave said:

La prima cosa da pensare (e qui ci potresti dare il tuo parere :D) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

Per es. si potrebbe considerare, in futuro, di avere piu' di un DB: uno a sola lettura con tutto l'indice e uno separato per i log.

@Giorgiotave said:

L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

Nell'articolo Larry e Sergey parlano di 24 Milioni di URL racimolati in poco piu' di una settimana, ma con una "batteria" di ragni che processava 48 pagine al secondo.
Questo dovrebbe essere fattibile facilmente con le macchine che ci sono oggi.
Inoltre, a quei tempi (dieci anni fa!) 150Gb erano un'enormita' oggi sono (quasi) bruscolini, quindi gestire questo numero di pagine non dovrebbe essere complicatissimo (il problema e', semmai, scegliere quali tenere e quali buttare, e questo e' forse un problema molto piu' complicato oggi che dieci anni fa)

@Giorgiotave said:

Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

Almeno all'inizio, il crawling di "Backrub" era scritto in Java, ma credo che oggi Python sia una buona scelta, essendo veramente semplice da imparare, molto versatile e abbastanza veloce.

giorgiotave

Grazie Ray71 per questi consigli.

Ora vediamo un attimino di analizzarli con calma e prendere delle decisioni e poi aprire i vari progetti.

Si abbiamo letto quel documento

Grazie davvero

seven

Ecco un altra domandina...
Al momento la posizione dei link nella serp da cosa viene determinato ?

Qual'è il bug che mi parlavi Giorgio !!

tonyx

Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

Lo spider è la questione chiave di un database di un motore di ricerca.

ray71

@tonyx said:

Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

Lo spider è la questione chiave di un database di un motore di ricerca.

Suggerisco Python perche' e' molto semplice da usare (specie se si parte dal php).
Va anche considerato che le prestazioni non dovrebbero essere un grosso problema: la maggior parte del tempo e' nel networking, quindi partire subito in C++ non darebbe grossi vantaggi, anzi, in Python ci sono gia' varie librerie standard per la gestione degli url e delle connessioni http, e un minimo di spider si scrive in mezza giornata, in C++ invece potrebbero volerci delle settimane prima di avere qualcosa di funzionante.

Una volta fatto un prototipo in Python, si puo' usare per un po' e rimandare il passaggio al C++, se proprio necessario, in un secondo tempo.

tonyx

Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo
Vi faccio sapere

bayle

@tonyx said:

Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo
Vi faccio sapere

Io col Python ho avuto una piccola esperienza e devo dire che si impara in 2 settimane se uno ci si mette. Non fatevi fregare però, ci si possono fare tutte le cose che si vogliono.