no..voglio solo php lo spider giàl'ho fatto..adesso devo fare uno script che analizzi le cache nuove e le valuti..voglio subito creare 2 cartelle una contenente i links in uscita da ogni sito e l'altra i Bls di ogni sito..così quando lo spider visiterà una pagina vedrà se questa pagina è già stata visitata, quali erano i suoi links in uscita e se troverà delle differenze andrà a modificare i bls delle pagine linkate..così i Bls saranno aggiornati costantemente.
L'unico difetto dello script è questo:
dato che in media una pagina web contiene 10 link, per ogni pagina visitata ci saranno 10 nuove pagine da visitare. Ma questo non è esattamente un difetto dello script..è un problema che non si può aggirare..quindi devo prepararmi ad un incremento esponenziale delle risorse.
la ricerca all'interno delle cache sarà molto semplice..tramite delle regole per ogni parola verrà abinata una lista di url di pagine contenenti quella parola e ad ogni url verrà attribuito un valore che verrà utilizzato per il posizionamento..infine per ogni pagina
Come avviene la ricerca di una key composta? se cerco key1 key2 estraggo dalle 2 liste le pagine uguali (se in 2 liste di key diverse ci sono 2 url uguali allora questi 2 url conterranno entrambe le key..è piuttosto ovvio)..infine mi invento una formula per sommare i valori delle pagine trovate (valore della pagina per key1 + valore della pagina per key2) e ho quindi i valori delle pagine per la key composta non mi resta che estrarre i primi 1000 valori e fornirli a 10 a dieci o al massimo a 100 a 100 come google
il problema + difficile da risolvere è come eseguire velocemente la ricerca per una key del tipo: "key1 key2 key3..keyn"..come faccio a spiegare allo script che voglio ke mi trovi tutte le pagine uguali in n liste di key diverse e che queste contengano esattamente "key1 key2 key3..keyn"?