Navigazione

    Privacy - Termini e condizioni
    © 2020 Search On Media Group S.r.l.
    • Registrati
    • Accedi
    • CATEGORIES
    • Discussioni
    • Non letti
    • Recenti
    • Hashtags
    • Popolare
    • Utenti
    • Stream
    • Interest
    • Categories
    1. Home
    2. Categorie
    3. Digital Marketing
    4. SEO
    5. Ecco il Mootore di Ricerca
    Questa discussione è stata cancellata. Solo gli utenti con diritti di gestione possono vederla.
    • giorgiotave
      giorgiotave Community Manager • ultima modifica di

      @nbriani said:

      Un terzo algoritmo, oppure sviluppando il secondo, si potrebbe studiare intorno agli studi di paocavo selezionando cluster di keyword nei testi delle pagine e assegnado a quelli un valore maggiore.

      Che ne dite?
      Per le altre domande arriva Tony, per questa rispondo io: aspettiamo 2-3 giorni....poi ne possiamo fare... 🙂

      0 Miglior Risposta Ringrazia Cita Rispondi

        1 Risposta Ultima Risposta
      • T
        tonyx User Attivo • ultima modifica di

        @nbriani said:

        • Quanto pesano mediamente i siti indicizzati sul server? (in semplici termini di occupazione di spazio) ?
        • Quanto dura e quanto stressa il server la spiderizzazione dei documenti ?
        • Come pensate di programmare lo spider (sia su nuove pagine sia su doc già indicizzati) ?

        -Per ora indicizziamo singoli documenti che vengono messi in un db mysql, per il peso ti posso dire che per ora indicizzando 72 documenti il peso è di poco più di 2 mega, per ora non viene applicato nessun algoritmo di compressione, non so poi se mysql ne adotta uno suo per gestire queste informazioni.
        -La durata della spiderizzazione dei documenti varia in base alla lunghezza dei documenti anzalizzati, e va da pochi secondi ad un massimo di 15 - 20. Un esempio pratico, la home di http://admaiora.blogs.com/maurolupi/ pesa circa 116Kb viene indicizzata in circa 8 secondi. Questo tempo dipende anche dall' Hardware della macchina che non conosco.

        • Attualmente lo spider prende l'url se questo già è presente nel db lo aggiorna, altrimenti lo indicizza, e per ora è un processo manuale, parte quando gli viene fornito l'url del documento.
          Si può modificare il codice della pagina affinche legga da un file di testo o un database una lista di siti e li vada ad indicizzare. Inoltre si può far partire lo spider in modo programmatico (una sorta di schedulizzazione) affinche legga le pagine nel db che hanno una data più vecchia o uguale a 3 giorni fà e ci ritorni sopra per aggiornarle. Queste sono tutte idee ancora da realizzare ma si può fare di tutto, anzi se ne avete di nuove proponetele.
        0 Miglior Risposta Ringrazia Cita Rispondi

          1 Risposta Ultima Risposta
        • F
          franconov Bannato User Attivo • ultima modifica di

          Complimenti vivissimi allo staff dell"EMBRIONE" mi aggiungo alla discussione per rimanere aggiornato.

          Saluti e ancora complimenti!!!

          0 Miglior Risposta Ringrazia Cita Rispondi

            1 Risposta Ultima Risposta
          • T
            tonyx User Attivo • ultima modifica di

            Volevo aggiungere qualche riflessione.

            • Una piccola riflessione sul secondo algoritmo, il Tf*IDF.
              Questo algoritmo, come già spiegato in precedenza, usa nella formula il parametro D, che è il numero dei documenti totali, quindi cosa succede:
              per ogni nuovo documento inserito questo valore D aumenta di 1 unità
              quindi per i precedenti documenti BISOGNA RIPETERE IL CALCOLO DEL PESO, inquanto uno dei parametri è cambiato.
              Come fare?
              Io penso che la soluzione ottimale sia far partire il ricalcolo come se fosse un aggiornamento ad esempio 1 volta a settimana.

            -Spam
            Questi due algoritmi sia quello dei pesi sempici sia quello Tf*IDF sono sucettibili al keyword spamming, ovvero tante più keyword sono presenti nella pagina tanto più alto sarà il loro peso, non è stata trattata per niente una alternativa che combatta lo spam, questo perchè siamo agli inizi e per ora è un test, quindi VI PREGO NON INDICIZZATA PAGINE CON SPAM.

            Saluti
            Tony.

            0 Miglior Risposta Ringrazia Cita Rispondi

              1 Risposta Ultima Risposta
            • H
              haccah User Attivo • ultima modifica di

              Il mootore ha dei problemi: guardate il 4 risultato
              http://www.giorgiotave.it/forum/mootore/search.php?q=ciao&btn=Cerca+con+Mootore&algo=1
              Ha dei problemi nel creare le descrizioni...

              Una considerazione OT:ma avete intenzione di fare paura a google e agli altri big? State sfornando roba una dopo l'altra (la directory, lo spider...)...
              Perchè se è così la questione si fa interessante ma sopratutto divertente!!;)

              P.S.: divertente non nel senso di idea patetica, ma nel senso sarà divertente vedere come tutti reagiranno, anche se per questo ci vorrà ancora tempo

              0 Miglior Risposta Ringrazia Cita Rispondi

                1 Risposta Ultima Risposta
              • giorgiotave
                giorgiotave Community Manager • ultima modifica di

                @HaccaH said:

                Il mootore ha dei problemi: guardate il 4 risultato
                http://www.giorgiotave.it/forum/mootore/search.php?q=ciao&btn=Cerca+con+Mootore&algo=1
                Ha dei problemi nel creare le descrizioni...
                Si...Antonio ci lavorerà più tardi 🙂

                Segnalate anche altre idee 🙂

                @HaccaH said:

                Una considerazione OT:ma avete intenzione di fare paura a google e agli altri big? State sfornando roba una dopo l'altra (la directory, lo spider...)...
                Perchè se è così la questione si fa interessante ma sopratutto divertente!!;)

                Hai colto molto, ma non siamo "scemi" di pensar di fare concorrenza a nessuno 🙂

                Vogliamo tre cose ed una l'hai presa: Divertirci, Studiare e Condividere 🙂

                GT 😉

                0 Miglior Risposta Ringrazia Cita Rispondi

                  1 Risposta Ultima Risposta
                • H
                  haccah User Attivo • ultima modifica di

                  @Giorgiotave said:

                  Hai colto molto, ma non siamo "scemi" di pensar di fare concorrenza a nessuno 🙂

                  Vogliamo tre cose ed una l'hai presa: Divertirci, Studiare e Condividere 🙂

                  Sicuro, ma sei poi viene fuori anche un bel progetto finalmente italiano, meglio no??

                  0 Miglior Risposta Ringrazia Cita Rispondi

                    1 Risposta Ultima Risposta
                  • paocavo
                    paocavo Moderatore • ultima modifica di

                    :vai: :vai: :vai: :vai: :vai: :vai: :vai: :vai:

                    e vvaiii!!

                    ...non vi posso lasciare una giorno ....

                    0 Miglior Risposta Ringrazia Cita Rispondi

                      1 Risposta Ultima Risposta
                    • N
                      nicola User Attivo • ultima modifica di

                      Io vorrei sapere una cosa molto più banale:
                      si legge Mootore o Mutor(e)? 😄

                      Complimenti ragazzi 😉

                      0 Miglior Risposta Ringrazia Cita Rispondi

                        1 Risposta Ultima Risposta
                      • T
                        tonyx User Attivo • ultima modifica di

                        Altra precisazione, ci sono di sicuro altri errori presenti nel mootore li correggerò un po alla volta tutti, un pò di tempo e pazienza.

                        0 Miglior Risposta Ringrazia Cita Rispondi

                          1 Risposta Ultima Risposta
                        • giorgiotave
                          giorgiotave Community Manager • ultima modifica di

                          @HaccaH said:

                          Sicuro, ma sei poi viene fuori anche un bel progetto finalmente italiano, meglio no??

                          si si 😄

                          Finalmente Italiano. Dateci tempo, il progetto GT viene da lontano ed andrà lontano.

                          @Nicola said:

                          Io vorrei sapere una cosa molto più banale:
                          si legge Mootore o Mutor(e)? 😄

                          Complimenti ragazzi 😉

                          LOL Mootore 😄

                          Ma è il nome dell'embrione 😉

                          0 Miglior Risposta Ringrazia Cita Rispondi

                            1 Risposta Ultima Risposta
                          • esteban
                            esteban Moderatore • ultima modifica di

                            Grandiosi davvero... ma da un motociclista cosa volevate che uscisse se non un lavoro con i fiocchi?
                            lamps...
                            ste

                            0 Miglior Risposta Ringrazia Cita Rispondi

                              1 Risposta Ultima Risposta
                            • paocavo
                              paocavo Moderatore • ultima modifica di

                              @nbriani said:

                              Un terzo algoritmo, oppure sviluppando il secondo, si potrebbe studiare intorno agli studi di paocavo selezionando cluster di keyword nei testi delle pagine e assegnado a quelli un valore maggiore.

                              Che ne dite?

                              Infatti, oltre al discorso dei cluster, utilizzando il "principio del reciproco rinforzo", si ottiengono le frasi più semanticamente rilevanti (riassunto, snippet, ecc) di una pagina web e potrebbero essere considerate solo queste (e qualcos'altro...) ai fini dei calcoli.

                              Vantaggi:

                              • minor testo da analizzare
                              • maggiore immunità allo spamming (nella versione successiva a cui sto lavorando)
                                Svantaggi:
                              • maggiore complessità computazionale
                              • maggiori risorse HW (cpu/RAM)

                              inoltre le "top keyword" estratte da una pagina potrebbero essere esposte nei risultati per "guidare" l'utente nei raffinamenti successivi delle ricerche o suggerirgli spunti di approfondimento tramite link a wikipedia, ecc...

                              0 Miglior Risposta Ringrazia Cita Rispondi

                                1 Risposta Ultima Risposta
                              • B
                                bayle User Attivo • ultima modifica di

                                Ma il sorgente è libero? Si può vedere?

                                0 Miglior Risposta Ringrazia Cita Rispondi

                                  1 Risposta Ultima Risposta
                                • R
                                  robaldo User Attivo • ultima modifica di

                                  @HaccaH said:

                                  Il mootore ha dei problemi: guardate il 4 risultato
                                  http://www.giorgiotave.it/forum/mootore/search.php?q=ciao&btn=Cerca+con+Mootore&algo=1
                                  Ha dei problemi nel creare le descrizioni...

                                  ha preso su tutto il title, che in quel sito è lungo come 3 pagine normali :rollo:

                                  complimenti, puo' essere utile per imparare tante cose

                                  0 Miglior Risposta Ringrazia Cita Rispondi

                                    1 Risposta Ultima Risposta
                                  • giorgiotave
                                    giorgiotave Community Manager • ultima modifica di

                                    @bayle said:

                                    Ma il sorgente è libero? Si può vedere?

                                    Si certo, spetta un attimo, un paio di giorni che facciamo vedere tutto 🙂

                                    @robaldo said:

                                    ha preso su tutto il title, che in quel sito è lungo come 3 pagine normali :rollo:

                                    complimenti, puo' essere utile per imparare tante cose

                                    Si è da chiudere a 100 caratteri o meno, ora vediamo.

                                    Tra un pochino potremo studiare tutti assieme. Più siamo meglio è 🙂

                                    Giorgio

                                    0 Miglior Risposta Ringrazia Cita Rispondi

                                      1 Risposta Ultima Risposta
                                    • giorgiotave
                                      giorgiotave Community Manager • ultima modifica di

                                      Aggiustato il bug, qui potete vedere le chiavi cercate

                                      http://www.giorgiotave.it/forum/mootore/ricerche.php

                                      Lo strumento chiavi cercate verrà migliorato parecchio, ho quasi finito di scrivere, forse domani ci saranno sviluppi 🙂

                                      Al massimo Dopo Domani 🙂

                                      0 Miglior Risposta Ringrazia Cita Rispondi

                                        1 Risposta Ultima Risposta
                                      • S
                                        stealth User Attivo • ultima modifica di

                                        bene,
                                        lasciai il progetto tempo fa in quanto sono stato sommerso da lavoro....sono contento che ci sia stata un'evoluzione sia nel primo algoritmo che del secondo...

                                        0 Miglior Risposta Ringrazia Cita Rispondi

                                          1 Risposta Ultima Risposta
                                        • D
                                          daniele80 User Attivo • ultima modifica di

                                          complimenti ragazzi!!!

                                          il motore di ricerca credo che sia uno dei pochi progetti che può portare sempre ad uno sviluppo e studio di nuove tecnologie dato l'enorme lavoro che si può fare sull'analisi dei documenti.

                                          bravi bravi bravi!!!!!!

                                          0 Miglior Risposta Ringrazia Cita Rispondi

                                            1 Risposta Ultima Risposta
                                          • C
                                            cibino Bannato Super User • ultima modifica di

                                            beh...devo assolutamente essere nell'indice! 😄

                                            0 Miglior Risposta Ringrazia Cita Rispondi

                                              1 Risposta Ultima Risposta
                                            Caricamento altri post
                                            Rispondi
                                            • Topic risposta
                                            Effettua l'accesso per rispondere
                                            • Da Vecchi a Nuovi
                                            • Da Nuovi a Vecchi
                                            • Più Voti