• User

    Ciao,

    ho appena scoperto teecno, complimenti per il coraggio 😉
    Avete dei piani piu' concreti o state solo sperimentando ?
    Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)

    Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?
    Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?) 😄

    Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.

    Spero comunque che il progetto faccia dei significativi passi avanti
    (anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali 😉

    Saluti,

    F.


  • Super User

    secondo me è meglio continuare in php
    python ha molti meno utenti (per esempio anche io stesso non lo conosco)

    sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp :D)
    sento un po' la mancanza di php5, soprattutto per spider.php


  • Community Manager

    Ciao F. Ray71 😄

    @Ray71 said:

    Ciao,

    ho appena scoperto teecno, complimenti per il coraggio 😉

    Grazie mille 😄

    L'obiettivo, come detto è:

    Il progetto inoltre non si pone l?obiettivo di diventare un grosso motore di ricerca, di scavalcare quello e quell?altro, non prendiamoci in giro.

    Il progetto vuole semplicemente dare la possibilità **a tutti** di poter studiare **come funziona un motore di ricerca** tutti insieme e di divulgare queste informazioni e renderle fruibili per crescere tutti insieme.
    

    @Ray71 said:

    Avete dei piani piu' concreti o state solo sperimentando ?

    Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

    E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

    Non è per gli utenti ovviamente....ancora 🙂 Speriamo lo sia presto (che non significa tre mesi :1:

    @Ray71 said:

    Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)

    Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

    Ovviamente ci sono da contare tutte le pagine interne.

    La prima cosa da pensare (e qui ci potresti dare il tuo parere :D) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

    L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

    Per le query dell'utente non lo so...non è il nostro obiettivo ora. Oggi abbiamo ricevuto 350 query, ma è il giorno del lancio, ancora un paio di giorni e dovrebbero calare.

    Quando sarà qualcosa di concreto inizierò con una promozione maggiore ed ho già individuato come farlo.

    @Ray71 said:

    Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?

    Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare 🙂

    Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

    Ma la programmazione in php la lasciamo, proprio perchè è il linguaggio più usato e quindi cerchiamo di farlo capire a tutti.

    Ovvio, il risultato finale, lo vogliamo fare in un altro linguaggio 🙂

    @Ray71 said:

    Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?) 😄

    Rudimentalissimo, se me lo concedi.

    Non si presenta come User-Agent (si, TeecnoBot) e questo crea problemi con le pagine come Wikipedia.

    Inoltre il progetto Robots.txt non è ancora attivo e lo faremo presto.

    Oltre a questo lo dobbiamo migliorare molto, è un esperimento.

    @Ray71 said:

    Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.

    Si, ma dobbiamo cercare chi sa farlo 🙂

    Ne siamo fermamente consapevoli 🙂

    @Ray71 said:

    Spero comunque che il progetto faccia dei significativi passi avanti
    (anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali 😉

    Saluti,

    F.

    Grazie, lo speriamo anche noi e speriamo di fornire qualcosa di più concreto mese dopo mese.

    Ovviamente sono graditissimi i tuoi consigli 🙂

    Giorgio


  • Community Manager

    @osvi said:

    secondo me è meglio continuare in php
    python ha molti meno utenti (per esempio anche io stesso non lo conosco)

    sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp :D)
    sento un po' la mancanza di php5, soprattutto per spider.php

    Perfetto 😄

    Me lo invii? Emmebar ti attiva subito 😄

    Dicevo, rimaniamo in php, ma cerchiamo qualcuno che programmi in Python per tradurre il tutto 🙂

    Ma il php rimarrà sempre, poi ci sono tante cartelle e c'è spazio per tutti 😄


  • Super User

    mail inviata 😄

    uhm faccio un paio di test sul robots
    (per adesso faccio cose semplici, prima di fare il codice degli algoritmi devo studiare non bene benissimo varie parti che mi mancano)


  • Community Manager

    http://www.teecno.it/osvi/

    C'è qualche bug...ma lodevole! Credo che si può implementare il discorso cache 😄

    Era uno dei progetti 😄

    Anche se è solo un test.

    Osvi, apri un thread dove spieghi le modifiche che hai fatto.

    Presto ci sarà anche un altro utente che mostrerà la sua versione.

    Dovremmo prevedere anche dei zip per ogni utente. Ora scegliamo il tipo specifico di licenza 🙂


  • Super User

    ok
    5 minuti e lo faccio
    intanto ho scritto la prima parte del parser robots
    http://webmatters.it/teecno2/robots.php
    pulisce linee e toglie i commenti
    manca solo la parte "leggi solo Teecnobot e *"


  • Community Manager

    C'è un altro utente che forse stasera riesce ad implementare la lettura del Robots.txt 🙂

    Giorgio


  • User

    @Giorgiotave said:

    Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

    E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

    Un buon punto di partenza per farsi un idea delle "altre" cose da fare, puo' essere questo (immagino che lo abbiate gia' letto, comunque).

    Ovviamente ha ben poco a che vedere con il Google di oggi, ma da un idea di quali sono gli aspetti principali di cui tenere conto.

    @Giorgiotave said:

    Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

    Ovviamente ci sono da contare tutte le pagine interne.

    Infatti, servono degli "spider" autonomi, non pagine web, ma programmi che girano 24/24 esplorando il web e raccogliendo URLs.

    Per i blog, e' forse anche piu' facile: basta registrarsi ai feed RSS.

    @Giorgiotave said:

    La prima cosa da pensare (e qui ci potresti dare il tuo parere :D) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

    Per es. si potrebbe considerare, in futuro, di avere piu' di un DB: uno a sola lettura con tutto l'indice e uno separato per i log.

    @Giorgiotave said:

    L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

    Nell'articolo Larry e Sergey parlano di 24 Milioni di URL racimolati in poco piu' di una settimana, ma con una "batteria" di ragni che processava 48 pagine al secondo.
    Questo dovrebbe essere fattibile facilmente con le macchine che ci sono oggi.
    Inoltre, a quei tempi (dieci anni fa!) 150Gb erano un'enormita' oggi sono (quasi) bruscolini, quindi gestire questo numero di pagine non dovrebbe essere complicatissimo (il problema e', semmai, scegliere quali tenere e quali buttare, e questo e' forse un problema molto piu' complicato oggi che dieci anni fa)

    @Giorgiotave said:

    Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare 🙂

    Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

    Almeno all'inizio, il crawling di "Backrub" era scritto in Java, ma credo che oggi Python sia una buona scelta, essendo veramente semplice da imparare, molto versatile e abbastanza veloce.


  • Community Manager

    Grazie Ray71 per questi consigli.

    Ora vediamo un attimino di analizzarli con calma e prendere delle decisioni e poi aprire i vari progetti.

    Si abbiamo letto quel documento 😄

    Grazie davvero 😉


  • User Attivo

    Ecco un altra domandina...
    Al momento la posizione dei link nella serp da cosa viene determinato ?

    Qual'è il bug che mi parlavi Giorgio !!


  • User Attivo

    Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

    Lo spider è la questione chiave di un database di un motore di ricerca.


  • User

    @tonyx said:

    Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

    Lo spider è la questione chiave di un database di un motore di ricerca.

    Suggerisco Python perche' e' molto semplice da usare (specie se si parte dal php).
    Va anche considerato che le prestazioni non dovrebbero essere un grosso problema: la maggior parte del tempo e' nel networking, quindi partire subito in C++ non darebbe grossi vantaggi, anzi, in Python ci sono gia' varie librerie standard per la gestione degli url e delle connessioni http, e un minimo di spider si scrive in mezza giornata, in C++ invece potrebbero volerci delle settimane prima di avere qualcosa di funzionante.

    Una volta fatto un prototipo in Python, si puo' usare per un po' e rimandare il passaggio al C++, se proprio necessario, in un secondo tempo.


  • User Attivo

    Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo 😄
    Vi faccio sapere 🙂


  • User Attivo

    @tonyx said:

    Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo 😄
    Vi faccio sapere 🙂

    Io col Python ho avuto una piccola esperienza e devo dire che si impara in 2 settimane se uno ci si mette. Non fatevi fregare però, ci si possono fare tutte le cose che si vogliono.