• User

    no l'ho fatto in php.. è stata dura ma riesco a ricavare un sacco di cose.... msn...vai


  • Super User

    risolto grazie a nwox 🙂 a breve creerò tutto il sistema..vi terrò aggiornati..cmq ora potrei pure fare uno spider in puro php 😄 non ci vuole una mazza 😎


  • User Attivo

    🙂 vedo allora che anche in php è fattibile


  • Super User

    sisi 🙂 per ora ho fatto una cosa grezzissima..semplicemente cerca una key e stabilisce se il link è presente nelle prime 100 posizioni..trova esattamente qual'è la posizione e se questa è superiore a un certo valore allora crea una pagina casuale e la salva in memoria..altrimenti se è inferiore richiama la pagina salvata :fumato:

    molto semplice

    per ora sto facendo un'altro test sulla mia door della race, ma se il test che sto facendo (quello degli accapo) da buoni risultati, allora cancellerò la pagina del test e testerò questo script. tanto non gareggio per vincere 🙂


  • User Attivo

    @kerouac3001 said:

    sisi 🙂 per ora ho fatto una cosa grezzissima..semplicemente cerca una key e stabilisce se il link è presente nelle prime 100 posizioni..trova esattamente qual'è la posizione e se questa è superiore a un certo valore allora crea una pagina casuale e la salva in memoria..altrimenti se è inferiore richiama la pagina salvata :fumato:

    molto semplice

    per ora sto facendo un'altro test sulla mia door della race, ma se il test che sto facendo (quello degli accapo) da buoni risultati, allora cancellerò la pagina del test e testerò questo script. tanto non gareggio per vincere 🙂

    ma è ammesso anche utilizzare php? in gara?


  • Super User

    io utilizzo php e l'ho detto 🙂 però finora non ho usato script..ho semplicemente usato codice html con estensione php 🙂


  • User

    ma lo vogliamo costruire questo motore o no? 😄


  • Super User

    il problema sta nello spider..dato che lo voglio fare totalmente in php, lo spider può venire azionato solo se un utente accede ad una determinata pagina..quindi si potrebbe azionare quando un utente fa un ricerca, ma per non appesantire troppo il caricamento della pagina si dovrebbe spiderizzare al massimo 2 pagine per volta..quando ho un pò di voglia, butto giù la base del motore..ovvero un semplice raccoglitore di cache e catalogatore di links.

    il procedimento è molto semplice. abbiamo bisogno di queste pagine:

    spider.php ----> contiene lo script che aziona lo spider
    links.php ----> contiene la lista degli url dei links trovati nelle pagine visitate e non ancora visitati
    cache_nuove/ ----> contiene tutte le cache [il nome di ogni cache sarà: urldellapagina.php]

    Dopo di che..fatta la base si procederà alla creazione di uno script che analizzi le cache nuove, le cataloghi , attribuendo un punteggio ad ogni sito, e infine le sposti nella cartella cache/..io preferirei non usare mysql se possibile..è troppo lento..quindi proporrei dei database testuali in comma separated..anche se il mysql è + facile da gestire

    in sostanza questa è la base..lo spider deve occuparsi solo del prelievo delle cache, poi l'analisi delle cache prelevate sarà effettuata da un altro script..bisognerà trovare delle regole idonee


  • Super User

    se proprio vi volete imbattere in questa avventura vi consiglio l'utilizzo di Java non solo per lo sviluppo dello spider ma dell'intero Motore, le performance e le possibilità di sviluppo saranno migliori

    ci avevo fatto un pensierino, ma il tempo è tiranno....


  • Super User

    no..voglio solo php 🙂 lo spider giàl'ho fatto..adesso devo fare uno script che analizzi le cache nuove e le valuti..voglio subito creare 2 cartelle una contenente i links in uscita da ogni sito e l'altra i Bls di ogni sito..così quando lo spider visiterà una pagina vedrà se questa pagina è già stata visitata, quali erano i suoi links in uscita e se troverà delle differenze andrà a modificare i bls delle pagine linkate..così i Bls saranno aggiornati costantemente.

    L'unico difetto dello script è questo:

    dato che in media una pagina web contiene 10 link, per ogni pagina visitata ci saranno 10 nuove pagine da visitare. Ma questo non è esattamente un difetto dello script..è un problema che non si può aggirare..quindi devo prepararmi ad un incremento esponenziale delle risorse.

    la ricerca all'interno delle cache sarà molto semplice..tramite delle regole per ogni parola verrà abinata una lista di url di pagine contenenti quella parola e ad ogni url verrà attribuito un valore che verrà utilizzato per il posizionamento..infine per ogni pagina

    Come avviene la ricerca di una key composta? se cerco key1 key2 estraggo dalle 2 liste le pagine uguali (se in 2 liste di key diverse ci sono 2 url uguali allora questi 2 url conterranno entrambe le key..è piuttosto ovvio)..infine mi invento una formula per sommare i valori delle pagine trovate (valore della pagina per key1 + valore della pagina per key2) e ho quindi i valori delle pagine per la key composta 🙂 non mi resta che estrarre i primi 1000 valori e fornirli a 10 a dieci o al massimo a 100 a 100 🙂 come google

    il problema + difficile da risolvere è come eseguire velocemente la ricerca per una key del tipo: "key1 key2 key3..keyn"..come faccio a spiegare allo script che voglio ke mi trovi tutte le pagine uguali in n liste di key diverse e che queste contengano esattamente "key1 key2 key3..keyn"?