[domanda]il punto della situazione

giorgiotave

Non volevo aprire un altro post inutile...

Cmq per prima cosa, complimenti per il vostro progetto !!

Volevo chiarezza sul funzionamento del motore Teecno

Grazie Seven!

La spiderizzazione dei siti web come avviene ? Immettete direttamente voi i link da spiderezzare o avete studiato qualcosa per poterlo fare ?

Daremo presto a tutti la possibilità di farlo...dobbiamo migliorare lo spider che per ora si trova qui

http://www.teecno.it/spider.php

Provalo...ha un bug ma funziona.

@seven said:

Ho letto che il progetto è Open Source, quindi ogni volta che migliorate il motore di ricerca viene data la possibilità di scaricarsi il codice aggiornato?

Per il momento è tutto !! Se mi vengono in mente altre curiosità vi faccio sapere !!

Ciao ciao e buon lavoro !!

Si ovvio

ray71

Ciao,

ho appena scoperto teecno, complimenti per il coraggio
Avete dei piani piu' concreti o state solo sperimentando ?
Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)

Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?
Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?)

Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.

Spero comunque che il progetto faccia dei significativi passi avanti
(anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali

Saluti,

F.

osvi

secondo me è meglio continuare in php
python ha molti meno utenti (per esempio anche io stesso non lo conosco)

sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp :D)
sento un po' la mancanza di php5, soprattutto per spider.php

giorgiotave

Ciao F. Ray71

@Ray71 said:

Ciao,

ho appena scoperto teecno, complimenti per il coraggio

Grazie mille

L'obiettivo, come detto è:

Il progetto inoltre non si pone l?obiettivo di diventare un grosso motore di ricerca, di scavalcare quello e quell?altro, non prendiamoci in giro.

Il progetto vuole semplicemente dare la possibilità **a tutti** di poter studiare **come funziona un motore di ricerca** tutti insieme e di divulgare queste informazioni e renderle fruibili per crescere tutti insieme.

@Ray71 said:

Avete dei piani piu' concreti o state solo sperimentando ?

Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

Non è per gli utenti ovviamente....ancora Speriamo lo sia presto (che non significa tre mesi

@Ray71 said:

Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)

Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

Ovviamente ci sono da contare tutte le pagine interne.

La prima cosa da pensare (e qui ci potresti dare il tuo parere :D) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

Per le query dell'utente non lo so...non è il nostro obiettivo ora. Oggi abbiamo ricevuto 350 query, ma è il giorno del lancio, ancora un paio di giorni e dovrebbero calare.

Quando sarà qualcosa di concreto inizierò con una promozione maggiore ed ho già individuato come farlo.

@Ray71 said:

Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?

Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

Ma la programmazione in php la lasciamo, proprio perchè è il linguaggio più usato e quindi cerchiamo di farlo capire a tutti.

Ovvio, il risultato finale, lo vogliamo fare in un altro linguaggio

@Ray71 said:

Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?)

Rudimentalissimo, se me lo concedi.

Non si presenta come User-Agent (si, TeecnoBot) e questo crea problemi con le pagine come Wikipedia.

Inoltre il progetto Robots.txt non è ancora attivo e lo faremo presto.

Oltre a questo lo dobbiamo migliorare molto, è un esperimento.

@Ray71 said:

Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.

Si, ma dobbiamo cercare chi sa farlo

Ne siamo fermamente consapevoli

@Ray71 said:

Spero comunque che il progetto faccia dei significativi passi avanti
(anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali

Saluti,

F.

Grazie, lo speriamo anche noi e speriamo di fornire qualcosa di più concreto mese dopo mese.

Ovviamente sono graditissimi i tuoi consigli

Giorgio

giorgiotave

@osvi said:

secondo me è meglio continuare in php
python ha molti meno utenti (per esempio anche io stesso non lo conosco)

sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp :D)
sento un po' la mancanza di php5, soprattutto per spider.php

Perfetto

Me lo invii? Emmebar ti attiva subito

Dicevo, rimaniamo in php, ma cerchiamo qualcuno che programmi in Python per tradurre il tutto

Ma il php rimarrà sempre, poi ci sono tante cartelle e c'è spazio per tutti

osvi

mail inviata

uhm faccio un paio di test sul robots
(per adesso faccio cose semplici, prima di fare il codice degli algoritmi devo studiare non bene benissimo varie parti che mi mancano)

giorgiotave

http://www.teecno.it/osvi/

C'è qualche bug...ma lodevole! Credo che si può implementare il discorso cache

Era uno dei progetti

Anche se è solo un test.

Osvi, apri un thread dove spieghi le modifiche che hai fatto.

Presto ci sarà anche un altro utente che mostrerà la sua versione.

Dovremmo prevedere anche dei zip per ogni utente. Ora scegliamo il tipo specifico di licenza

osvi

ok
5 minuti e lo faccio
intanto ho scritto la prima parte del parser robots
http://webmatters.it/teecno2/robots.php
pulisce linee e toglie i commenti
manca solo la parte "leggi solo Teecnobot e *"

giorgiotave

C'è un altro utente che forse stasera riesce ad implementare la lettura del Robots.txt

Giorgio

ray71

@Giorgiotave said:

Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

Un buon punto di partenza per farsi un idea delle "altre" cose da fare, puo' essere questo (immagino che lo abbiate gia' letto, comunque).

Ovviamente ha ben poco a che vedere con il Google di oggi, ma da un idea di quali sono gli aspetti principali di cui tenere conto.

@Giorgiotave said:

Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

Ovviamente ci sono da contare tutte le pagine interne.

Infatti, servono degli "spider" autonomi, non pagine web, ma programmi che girano 24/24 esplorando il web e raccogliendo URLs.

Per i blog, e' forse anche piu' facile: basta registrarsi ai feed RSS.

@Giorgiotave said:

La prima cosa da pensare (e qui ci potresti dare il tuo parere :D) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

Per es. si potrebbe considerare, in futuro, di avere piu' di un DB: uno a sola lettura con tutto l'indice e uno separato per i log.

@Giorgiotave said:

L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

Nell'articolo Larry e Sergey parlano di 24 Milioni di URL racimolati in poco piu' di una settimana, ma con una "batteria" di ragni che processava 48 pagine al secondo.
Questo dovrebbe essere fattibile facilmente con le macchine che ci sono oggi.
Inoltre, a quei tempi (dieci anni fa!) 150Gb erano un'enormita' oggi sono (quasi) bruscolini, quindi gestire questo numero di pagine non dovrebbe essere complicatissimo (il problema e', semmai, scegliere quali tenere e quali buttare, e questo e' forse un problema molto piu' complicato oggi che dieci anni fa)

@Giorgiotave said:

Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

Almeno all'inizio, il crawling di "Backrub" era scritto in Java, ma credo che oggi Python sia una buona scelta, essendo veramente semplice da imparare, molto versatile e abbastanza veloce.

giorgiotave

Grazie Ray71 per questi consigli.

Ora vediamo un attimino di analizzarli con calma e prendere delle decisioni e poi aprire i vari progetti.

Si abbiamo letto quel documento

Grazie davvero

seven

Ecco un altra domandina...
Al momento la posizione dei link nella serp da cosa viene determinato ?

Qual'è il bug che mi parlavi Giorgio !!

tonyx

Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

Lo spider è la questione chiave di un database di un motore di ricerca.

ray71

@tonyx said:

Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

Lo spider è la questione chiave di un database di un motore di ricerca.

Suggerisco Python perche' e' molto semplice da usare (specie se si parte dal php).
Va anche considerato che le prestazioni non dovrebbero essere un grosso problema: la maggior parte del tempo e' nel networking, quindi partire subito in C++ non darebbe grossi vantaggi, anzi, in Python ci sono gia' varie librerie standard per la gestione degli url e delle connessioni http, e un minimo di spider si scrive in mezza giornata, in C++ invece potrebbero volerci delle settimane prima di avere qualcosa di funzionante.

Una volta fatto un prototipo in Python, si puo' usare per un po' e rimandare il passaggio al C++, se proprio necessario, in un secondo tempo.

tonyx

Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo
Vi faccio sapere

bayle

@tonyx said:

Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo
Vi faccio sapere

Io col Python ho avuto una piccola esperienza e devo dire che si impara in 2 settimane se uno ci si mette. Non fatevi fregare però, ci si possono fare tutte le cose che si vogliono.