woznihack

woznihack

Ciao, benvenuto nel progetto Teecno (per la prima volta faccio io le presentazioni) :p.
Tutto quello che hai detto è giustissimo, ma ti chiarisco le idee nel caso tu non avessi letto gli altri 3d.
Riguardo alla scelta del PHP, ci sono state altre discussioni in questo forum.. si è parlato di altri linguaggi ma.. si è giunti alla conclusione che momentaneamente PHP va benissimo perchè potrebbe anche essere lanciato da crontab (vedi discussione spider). Comunque resta il fatto che in futuro potrebbero essere adottati linguaggi più performanti (...in FUTURO).
Per quanto riguarda il database MySQL, ci sono già un paio di discussioni aperte ma te le riassumo in breve: dicono che MySQL sia molto prestante anche in caso di grosse dimensioni di dati (esperienze di alcuni utenti). Comunque.. (anche qui c'è il comunque) Teecno è un progetto open source quindi, usando database proprietari come Oracle o Sql Server (credo microzozz.. boh..!) non sarebbe più tale.
Si vogliono sviluppare progetti paralleli in altri linguaggi? Che ben vengano..credo che anche Giorgio e gli altri siano favorevoli.

Ciao, e alla prossima.

P.S. = non ci interessa essere la concorrenza dei GRANDI MOTORI DI RICERCA.. sarebbe impossibile, se non inutile!

woznihack

@denadai2 said:

se si lascia lo spider in php io partecipo.

Cmq evidentemente nn sei a conoscenza della potenza di php. Guarda il sito www.hwmod.net. Ha un "demone" che lavora in background e ogni ora viene lanciato uno script da cron in automatico via terminale diciamo.

Praticamente in linux come in windows uno script si può lanciare via console facendo php a.php o php.exe a.php.

Lo spider si gestisce con una "coda" scritta in una tabella mysql delle tabelle da passare. Ogni volta che viene eseguito lo spider lui seleziona una riga, la cancella e visita il sito inserendo i dati in un altra tabella.
Quando termina riparte e fa la stessa cosa: seleziona, cancella visita e cosi via.

Il c++ a questo punto nn serve giusto? In + non c'è nemmeno la scusa di "php è di scripting quindi è lento" perchè il tcp/ip è + lento ancora il che distrugge la differenza tra i due.

quoto totalmente ciò ke ha scritto denadai.
W il php e la sua potenza.

woznihack

sto studiando un manualone di python (guardacaso :P) ...se quando l'avrò finito non c sta nessuno + esperto di me, lo faccio io il motore (ovviamente collaborando con chiunque voglia).

woznihack

ragazzi, non credo sia molto utile trasformare il nostro linguaggio in C ... perchè il C è utilizzato per le applicazioni desktop e il php per le applicazioni web.
Anche volendo usare C++ o C# come ben sapete, la maggior parte di suite di sviluppo per questi due linguaggi (soprattutto il secondo ) è priprietaria .. e noi nn vogliamo di certo sviluppare un open source con suite proprietarie.
Come già accennato in altri post, sarebbe utile la traduzione in Python o Perl.. ma tradurre il software in c++ sarebbe non solo uno spreco di tempo, ma anche una cosa inutile.
Sbaglio o è così? Buon Lavoro ..

woznihack

posta posta, purchè rispecchi il modello della funzione ke ho fatto io.. prende l'html come parametro e restituisce la matrice con title, h1, body e lista dei links. Se puoi già adattarlo tu sotto questa forma è bene, m risparmi del lavoro altrimenti lo riadatto io. ciao e grazie

woznihack

Questi giorni, sto cercando di ottimizzare il codice dello spider attuale per creare uno spider sull'idea di Osvi.
Effettuando una programmazione modulare, questo pomeriggio ho sviluppato un PARSER html in php cercando di crearne uno più veloce dell'attuale.
Il codice del parser è questo:

function parser_html($html)
{
   $len = strlen($html);
   $tag['title'] = '';
   $tag['h1'] = '';
   $tag['body'] = '';
   $tag['links']  = array();
   for($i = 0 ; $i < $len ; $i++ )
   {
      if($tag['title']=='' && substr($html,$i,strlen('<title>')) == '<title>')
          $tag['title'] = substr($html,$i+strlen('<title>'),strpos(substr($html,$i+strlen('<title>')-1),'</title>')-1);
      if($tag['h1']=='' && substr($html,$i,strlen('<h1>')) == '<h1>')
          $tag['h1'] = substr($html,$i+strlen('<h1>'),strpos(substr($html,$i+strlen('<h1>')-1),'</title>')-1);
      if($tag['body']=='' && substr($html,$i,strlen('<body>')) == '<body>')

         $tag['body'] = substr($html,$i+strlen('<body>'),strpos(substr($html,$i+strlen('<h1>')-1),'</body>')-1);
      if(substr($html,$i,strlen('<a')) == '<a')
      {
         $html_rimanente = substr($html,$i);
         $href = substr($html_rimanente,strpos($html_rimanente,"href"),strpos($html_rimanente,">")-strpos($html_rimanente,"href"));
         $href = str_replace(" ","",$href);
         $href = substr($href,strpos($href,"\"")+1,strpos(substr($href,strpos($href,"\"")+1),"\""));
         if(substr($href,0,6)!='mailto')
            $tag['links'][] = $href;
      }
   }
   $tag['title'] = ereg_replace("[[:punct:]]"," ",$tag['title']); //pulisco dalla punteggiatura
   $tag['title'] = str_replace("\n", " ",$tag['title']);
   $tag['title'] = trim(preg_replace("/[ \t]{2,}/"," ",$tag['title'])); //sostituisco gli spazi contigui e le tabulazioni con un solo spazio

   $tag['h1']    = strip_tags($tag['h1']); //tolgo i tag dalla pagina
   $tag['h1']    = ereg_replace("[[:punct:]]"," ",$tag['h1']); //pulisco dalla punteggiatura
   $tag['h1']    = str_replace("\n", " ",$tag['h1']);
   $tag['h1']    = trim(preg_replace("/[ \t]{2,}/"," ",$tag['h1'])); //sostituisco gli spazi contigui e le tabulazioni con un solo spazio
    
   $tag['body']    = preg_replace("'<script[^>]*?>.*?</script>'si","",$tag['body']); //tolgo eventuale javascript
   $tag['body']    = preg_replace("/<h1>(.+?)<\/h1>/si","",$tag['body']); //tolgo gli h1 per non contare 2 volte l'occorrenza dei suoi termini
   $tag['body']    = strip_tags($tag['body']); //tolgo i tag dalla pagina
   $tag['body']    = ereg_replace("[[:punct:]]"," ",$tag['body']); //pulisco dalla punteggiatura
   $tag['body']    = str_replace("\n", " ",$tag['body']);
   $tag['body'] = trim(preg_replace("/[ \t]{2,}/"," ",$tag['body'])); //sostituisco gli spazi contigui e le tabulazioni con un solo spazio
   
   return $tag;
}

Il parser prende come parametro il codice html e resituisce una matrice così strutturata:
matrice[0] = testo del titolo
matrice[1] = testo di h1
matrice[2] = testo di body (senza nessun tag html)
matrice[3] = elenco di links trovati nel codice

scusate l'assenza di commenti e la scarsa identazione del codice.

Io chiedo a voi membri di creare dei parser html scritti con una funzione simile a quella scritta da me (magari modificando proprio quella mia ) e di postarli in questo 3d.
Dopo che avrò ricevuto tutti i parser, farò un benchmark delle prestazioni in termini di tempo di esecuzione e il più rapido sarà utilizzato nello spider di Teecno che sto sviluppando.

Buon lavoro.

woznihack

mm figo.. credo sia scritto in ajax o qualcosa di simile.
M disp... ma in questo caso nn posso dare nessuna mano .. una volta ho provato ad usare ajax e nn riuscivo neanche a far scrivere "Ciao Mondo". JavaScript credo sia Vs me..... boh.. nn lo reggo proprio.
Cmq bella idea.. ma sta da sviluppare dopo aver fatto un VERO motore di ricerca.

woznihack

ho finito di leggere entrambi i post .. ho già risposto ad Osvi per comunicargli la mia disponibilità a collaborare al suo progetto e magari quella di unire le idee per creare uno spider "semi-autonomo" in php. Buona giornata a tutti!!

woznihack

ciao Osvi, nn avendo letto questo 3d sullo spider parallelo ne avevo aperto uno nuovo (scusami). cmq se vuoi possiamo fondere le idee .. la tua mi sembra molto buona.. è quasi come intendevo realizzare io lo spider.
se uniamo le idee e il codice già scritto da te con quelle mie (ho detto mie? ..bhè è open source... quindi di tutti) credo ke avremo un potente web-developed spider....
infatti come già accennato in altri post lo spider vero e proprio nn sarà fatto in php ma in un linguaggio più veloce.. o magari sarà realizzato un eseguibile apposta da inserire tipo nella crontab del server (sempre se è *unix).

Io ci sto al tuo progetto...aggiungimi ad msn e vedremo. Cmq momentaneamente posso darti solo supporto mentale e non fisico (in pratica idee ma non codice) perchè sn occupato tra relazioni scolastiche e lavori da comletare. Buona giornata a tutti!

woznihack

Ciao compagni di forum !!!

woznihack

il problema del timeout è praticamente risolto..ho già usato questo metodo per altre mie applicazioni.
in pratica facendo delle prove, supponendo di chiamare TP il tempo medio che ci mette lo scritp ad effettuare il parsing di un link alla ricerca delle keywords e supponendo di chiamare T il tempo di timeout del server, T/TP darà il numero massimo dei link che possono essere parsati per volta. Facendo un altra semplice divisione NUMERO TOTALE LINK / MAX LINK PARSATI PER VOLTA si ottengono il numero di redirect necessari per completare l'operazione di parsing di tutti i link. poi con i redirect e il passaggio dei parametri via GET o POST si parsano uno ad uno i link del database.
Vuoi un metodo + semplice di questo??

woznihack

bhè ... cosa dire.. dato che GT.it ci mette a disposizione questa bacheca dove presentarci allora ne approfitto
Mi chiamo Arturo e ho 17 anni (quasi), sono un appassionatissimo (si può dire?) di informatica e tecnologia e come "classe sociale" appartengo al movimento hip-hop italiano (suona davvero bene così).
Amo la programmazione e, il linguaggio da me preferito (e più frequentemente usato) è il PHP ma conosco anche C\C++, Javascript, e tanti altri (tutti cloni del C). In genere sviluppo software medio-professionali per aziende e privati. Tuttavia i miei obbiettivi da programmatore non sono tanto quelli di diventare "PROGRAMMATORE ESPERTO" ma quelli di dare il mio personale contributo (anche se molto limitato) al mondo. Amo gli ideali OpenSource e odio la gente che privatizza il SAPERE UMANO (chissà di chi parlo ...:bho:).
Il mio sogno è di diventare un ingegnere robotico(o eventualmente) informatico di successo (da non confondere il successo con i denaro).
Con ciò concludo la mia presentazione al forum.

Ciao a tutti e ....ricordate OPEN SOURCE è vita

woznihack

Buongiorno a tutto il forum di giorgiotave.it.
proprio ieri, googlando un pò alla ricerca di progetti open source italiani, ho trovato un gruppo di user del forum di giorgiotave.it che ha fatto una fantastica proposta per realizzare un motore di ricerca open source tutto spaghetti e mandolino.
si, forse v sarete accorti che sto parlando di questo forum e di questo progetto e v dico che appena ho cominciato a leggere i primi 3d ho detto "questo è il progetto che fa al caso mio, pieno di stimoli e molto avvincente".
Finita la pappardella di routine, inizio a collaborare attivamente a questo progetto proponendo un nuovo (modifica del precedente) algoritmo per lo spider di Teecno.
Stamattina in classe ho approfittato delle ore di letteratura per studiare l'algoritmo attualmente utilizzato in spider.php e ho notato che per indicizzare un sito all'interno del motore, bisogna per forza suggerirlo tramite il form.
L'algoritmo che ho pensato invece, prevede sia l'indicizzazione manuale sia quella semi-automatica. Principalmente l'algoritmo divide in due parti il lavoro dello spider:

salva nel db il link suggerito con il relativo contenuto della pagina e mediante una funzione ricorsiva recupera tutti i link presenti nella pagina per N volte (numero di "passate") scelto dai programmatori;
ogni X giorni (o minuti, ore, mesi....ecc) prelevando uno ad uno i link dal database creato tramite la prima fase, si creano le KEYWORDS con l'algoritmo TF*IDF.

Per entrambe le fasi, momentaneamente si può utilizzare codice scritto in PHP , tuttavia.. per la seconda fase (la più lunga) si potrebbe incorrere in problemi di TIMEOUT da parte del server :x(ostacolo facilmente superabile utilizzando dei redirect consecutivi) quindi in futuro sarebbe meglio implementare codice PERL o PYTHON sia per velocizzare le operazioni, sia per automatizzarle (CGI-BIN).

Detto ciò, lascio alla comunità il miglioramento di questa idea di base (dopotutto l'OpenSource funziona così no?).

Complimenti a tutti per il lavoro finora effettuato e spero di poter contribuire con codice "mio" al progetto in futuro, dato che momentaneamente sono impegnatissimo.
Dai ragazzi.. continuiamo così, questo progetto ROXA .. e magari tra qualche anno saluteremo dall'alto il motore di ricerca con 2O !!!
OPEN SOURCE IS LIFE!!!

woznihack

@woznihack

Post creati da woznihack