• Super User

    ah sì, certo 🙂

    un parser rss è anche 100 volte più semplice di uno html
    accodo alla lista 😄

    edit non mi fa modificare il messaggio 😄 puoi mettere te

    • testo e titolo <a>
    • spider rss (vedi post di Giorgio)
      ? 😄

  • Community Manager

    @osvi said:

    ah sì, certo 🙂

    un parser rss è anche 100 volte più semplice di uno html
    accodo alla lista 😄

    edit non mi fa modificare il messaggio 😄 puoi mettere te

    • testo e titolo <a>
    • spider rss (vedi post di Giorgio)
      ? 😄

    Oki, mi rifai il messaggio e me lo posti in pvt? 😄 NOn ho capito bene,
    ora ti rispondo al privato 🙂


  • Super User

    fate in modo che interpreti correttamente anche gli html entities, poi, eh ;):)


  • Super User

    si infatti non sarà un problema 🙂
    avevo già notato che con il codice attule vengono spazzate via

    lo spider è in programmazione
    non lo sto facendo ad oggetti come spiegato nell'altro thread, cmq una conversione in futuro sarebbe indolore (maledetta debian ma php5 quando lo rilasci?)
    ancora è troppo presto anche per uno snapshot, cmq volevo dire ci sto lavorando non è che ho aperto il thread solo per fare qualcosa 😄

    vi aggiorno appena ho qualcosa di "alpha"


  • Community Manager

    Osvi tutto bene dalle tue parti? 🙂


  • Super User

    purtroppo, devo essere sincero - non ho avuto né tempo né modo
    spero di poter sfornare qualcosa di "usabile" appena possibile... non saprei dirti una data (che probabilmente non rispetterei)
    prometto però che domenica riguardo il codice già scritto e preparo uno schema di cosa fare, come continuare, ecc

    ti faccio sapere 🙂

    qualcuno sa come dezendare uno script php?[/ot]


  • Community Manager

    @osvi said:

    purtroppo, devo essere sincero - non ho avuto né tempo né modo
    spero di poter sfornare qualcosa di "usabile" appena possibile... non saprei dirti una data (che probabilmente non rispetterei)
    prometto però che domenica riguardo il codice già scritto e preparo uno schema di cosa fare, come continuare, ecc

    ti faccio sapere 🙂

    Ottimo e molto interessante 🙂

    Sopratutto il come continuare, grazie mille e fai con calma Osvi 😉

    Giorgio


  • Super User

    visto che si mette male e non esco, ci lavoro ora

    a seconda dei risultati aggiornerò questo post e/o upperò il lavoro parziale su svn 🙂


  • Super User

    primo aggiornamento: ho cambiato lo schema del database
    sistemo il codice di spider.php (senza aggiungere migliorie) rendendolo compatibile col nuovo schema e pubblico


  • Community Manager

    Okey Perfetto 🙂


  • Super User

    qualcun'altro si vuole aggregare a me?
    in due sarebbe più semplice e più veloce 😄

    info msn:samy_morgan§msn.com gtalk:francesco.monte§gmail.com


  • User

    se vuoi ti posso aiutare io 😄


  • Super User

    fantastico ti aggiungo a msn


  • User

    ciao Osvi, nn avendo letto questo 3d sullo spider parallelo ne avevo aperto uno nuovo (scusami). cmq se vuoi possiamo fondere le idee .. la tua mi sembra molto buona.. è quasi come intendevo realizzare io lo spider.
    se uniamo le idee e il codice già scritto da te con quelle mie (ho detto mie? ..bhè è open source... quindi di tutti) credo ke avremo un potente web-developed spider....
    infatti come già accennato in altri post lo spider vero e proprio nn sarà fatto in php ma in un linguaggio più veloce.. o magari sarà realizzato un eseguibile apposta da inserire tipo nella crontab del server (sempre se è *unix).

    Io ci sto al tuo progetto...aggiungimi ad msn e vedremo. Cmq momentaneamente posso darti solo supporto mentale e non fisico (in pratica idee ma non codice) perchè sn occupato tra relazioni scolastiche e lavori da comletare. Buona giornata a tutti!


  • User

    senti un po osvi, mi dovresti spiegare un po ste righe (nn ke nn le capisca ma adesso sto un po rinco :1:

    $result=mysql_query("INSERT INTO ricerche (id_ricerca, ricerca, ip, data, useragent) values (null,'$str_key','$ip','$dataora','$user')",$conn);
    for ($i=0;$i<sizeof($tot_key);$i++){
    $str_sql = $str_sql."termine = '$tot_key*'";
    if ($i < sizeof($tot_key)-1) $str_sql = $str_sql." OR ";
    }

    if ($algo == 2) { //se algoritmo scelto è Tf*DF
    $sql = "SELECT url FROM (docstore INNER JOIN plist ON docstore.id_doc = plist.id_doc) INNER JOIN lessico ON lessico.id_termine = plist.id_termine WHERE (".$str_sql.") GROUP BY url"; //query per il calcolo dei record totali restituiti
    $result=mysql_query($sql,$conn);
    $tot_num_risult = mysql_num_rows($result);

    $sql = "SELECT url, corpo, SUM(w) as w FROM (docstore INNER JOIN plist ON docstore.id_doc = plist.id_doc) INNER JOIN lessico ON lessico.id_termine = plist.id_termine WHERE (".$str_sql.") GROUP BY url,corpo  ORDER BY w DESC LIMIT $limit_inf,10"; //query dei risultati da mostrare
    

    }

    qua in pratica applici il tf*idf ma le formule dove le applichi?
    mi sembra ke tu hai creato una tabella apposta x fare le operazioni, ma nn cio capito un caxxo, dopo me ce rimetto bene e cerco di capi, se intanto tu vuoi darmi dei chiarimenti in + 😄


  • Super User

    uhm no non è codice mio, è dello spider originale 🙂
    il tf*idf "è nel" campo w

    ^woznihack^ : ti aggiungo 🙂


  • User

    @osvi said:

    uhm no non è codice mio, è dello spider originale 🙂
    il tf*idf "è nel" campo w

    ^woznihack^ : ti aggiungo 🙂

    mamma mia... chiunque l'abbia scritto si dovrebbe nascondere... praticamente il server muore solo per fare il for...

    Io direi che questo:

    for ($i=0;$i<sizeof($tot_key);$i++){
    $str_sql = $str_sql."termine = '$tot_key*'";
    if ($i < sizeof($tot_key)-1) $str_sql = $str_sql." OR ";
    }

    va cambiato con questo

    $total = sizeof($tot_key);
    for ($i=0;$i<$total;$i++)
    {
    $str_sql .= "termine = '$tot_key*'";
    if ($i < $total-1)
    $str_sql .= ' OR ';
    }

    il resto nn lo ho letto... mi sono rifiutato 😄


  • Super User

    non mi pare che qui qualcuno voglia sfidare google, stiamo solo parlando di algoritmi per poi portare il tutto (in un secondo momento) in un linguaggio più performante di php

    chiunque l'abbia scritto si dovrebbe nascondere...
    non so chi ha scritto quel codice, non mi sembra la fine del mondo: dopo tutto si vede di molto peggio

    il resto nn lo ho letto... mi sono rifiutato 😄
    nessuno ti obbliga a partecipare :bho:


  • User

    @denadai2 said:

    mamma mia... chiunque l'abbia scritto si dovrebbe nascondere... praticamente il server muore solo per fare il for...

    mmm... commenti non utili allo sviluppo del progetto.

    (OT) .. Scusa, ma è normale che ci siano cose da migliorare e da creare è un progetto nato da poco, l'importante è avere una base da cui partire e su cui sviluppare tutte le proposte. (/OT)

    dai se hai 10 minuti 🙂 ..
    guarda il resto del codice e proponi le migliorie.
    Grazie!


  • User

    @davalletall said:

    mmm... commenti non utili allo sviluppo del progetto.

    (OT) .. Scusa, ma è normale che ci siano cose da migliorare e da creare è un progetto nato da poco, l'importante è avere una base da cui partire e su cui sviluppare tutte le proposte. (/OT)

    dai se hai 10 minuti 🙂 ..
    guarda il resto del codice e proponi le migliorie.
    Grazie!

    il mio commento credo sia molto + utile della tua riflessione... io ho corretto il codice e se nn lo sapete era grave... obbligava ad ogni ciclo di for il riconteggio di tutto l'array.... un array di 100 elementi voleva dire 100 riconteggi

    Volete trasformarlo in un linguaggio piu performante di php? Beh in primo luogo è da pazzi in secondo luogo gli algoritmi si studiano anche senza provarlo con uno script. Di sicuro io nn faccio una cosa che deve essere rifatta...