Creiamo un motore di ricerca con relativo spider

nwox

no l'ho fatto in php.. è stata dura ma riesco a ricavare un sacco di cose.... msn...vai

kerouac3001

risolto grazie a nwox a breve creerò tutto il sistema..vi terrò aggiornati..cmq ora potrei pure fare uno spider in puro php non ci vuole una mazza

pregopapa

vedo allora che anche in php è fattibile

kerouac3001

sisi per ora ho fatto una cosa grezzissima..semplicemente cerca una key e stabilisce se il link è presente nelle prime 100 posizioni..trova esattamente qual'è la posizione e se questa è superiore a un certo valore allora crea una pagina casuale e la salva in memoria..altrimenti se è inferiore richiama la pagina salvata

molto semplice

per ora sto facendo un'altro test sulla mia door della race, ma se il test che sto facendo (quello degli accapo) da buoni risultati, allora cancellerò la pagina del test e testerò questo script. tanto non gareggio per vincere

pregopapa

@kerouac3001 said:

sisi per ora ho fatto una cosa grezzissima..semplicemente cerca una key e stabilisce se il link è presente nelle prime 100 posizioni..trova esattamente qual'è la posizione e se questa è superiore a un certo valore allora crea una pagina casuale e la salva in memoria..altrimenti se è inferiore richiama la pagina salvata

molto semplice

per ora sto facendo un'altro test sulla mia door della race, ma se il test che sto facendo (quello degli accapo) da buoni risultati, allora cancellerò la pagina del test e testerò questo script. tanto non gareggio per vincere

ma è ammesso anche utilizzare php? in gara?

kerouac3001

io utilizzo php e l'ho detto però finora non ho usato script..ho semplicemente usato codice html con estensione php

nwox

ma lo vogliamo costruire questo motore o no?

kerouac3001

il problema sta nello spider..dato che lo voglio fare totalmente in php, lo spider può venire azionato solo se un utente accede ad una determinata pagina..quindi si potrebbe azionare quando un utente fa un ricerca, ma per non appesantire troppo il caricamento della pagina si dovrebbe spiderizzare al massimo 2 pagine per volta..quando ho un pò di voglia, butto giù la base del motore..ovvero un semplice raccoglitore di cache e catalogatore di links.

il procedimento è molto semplice. abbiamo bisogno di queste pagine:

spider.php ----> contiene lo script che aziona lo spider
links.php ----> contiene la lista degli url dei links trovati nelle pagine visitate e non ancora visitati
cache_nuove/ ----> contiene tutte le cache [il nome di ogni cache sarà: urldellapagina.php]

Dopo di che..fatta la base si procederà alla creazione di uno script che analizzi le cache nuove, le cataloghi , attribuendo un punteggio ad ogni sito, e infine le sposti nella cartella cache/..io preferirei non usare mysql se possibile..è troppo lento..quindi proporrei dei database testuali in comma separated..anche se il mysql è + facile da gestire

in sostanza questa è la base..lo spider deve occuparsi solo del prelievo delle cache, poi l'analisi delle cache prelevate sarà effettuata da un altro script..bisognerà trovare delle regole idonee

rinzi

se proprio vi volete imbattere in questa avventura vi consiglio l'utilizzo di Java non solo per lo sviluppo dello spider ma dell'intero Motore, le performance e le possibilità di sviluppo saranno migliori

ci avevo fatto un pensierino, ma il tempo è tiranno....

kerouac3001

no..voglio solo php lo spider giàl'ho fatto..adesso devo fare uno script che analizzi le cache nuove e le valuti..voglio subito creare 2 cartelle una contenente i links in uscita da ogni sito e l'altra i Bls di ogni sito..così quando lo spider visiterà una pagina vedrà se questa pagina è già stata visitata, quali erano i suoi links in uscita e se troverà delle differenze andrà a modificare i bls delle pagine linkate..così i Bls saranno aggiornati costantemente.

L'unico difetto dello script è questo:

dato che in media una pagina web contiene 10 link, per ogni pagina visitata ci saranno 10 nuove pagine da visitare. Ma questo non è esattamente un difetto dello script..è un problema che non si può aggirare..quindi devo prepararmi ad un incremento esponenziale delle risorse.

la ricerca all'interno delle cache sarà molto semplice..tramite delle regole per ogni parola verrà abinata una lista di url di pagine contenenti quella parola e ad ogni url verrà attribuito un valore che verrà utilizzato per il posizionamento..infine per ogni pagina

Come avviene la ricerca di una key composta? se cerco key1 key2 estraggo dalle 2 liste le pagine uguali (se in 2 liste di key diverse ci sono 2 url uguali allora questi 2 url conterranno entrambe le key..è piuttosto ovvio)..infine mi invento una formula per sommare i valori delle pagine trovate (valore della pagina per key1 + valore della pagina per key2) e ho quindi i valori delle pagine per la key composta non mi resta che estrarre i primi 1000 valori e fornirli a 10 a dieci o al massimo a 100 a 100 come google

il problema + difficile da risolvere è come eseguire velocemente la ricerca per una key del tipo: "key1 key2 key3..keyn"..come faccio a spiegare allo script che voglio ke mi trovi tutte le pagine uguali in n liste di key diverse e che queste contengano esattamente "key1 key2 key3..keyn"?