Navigazione

    Privacy - Termini e condizioni
    © 2020 Search On Media Group S.r.l.
    • Registrati
    • Accedi
    • CATEGORIES
    • Discussioni
    • Non letti
    • Recenti
    • Hashtags
    • Popolare
    • Utenti
    • Stream
    • Interest
    • Categories
    1. Home
    2. Categorie
    3. Gli Off Topic
    4. GT Fetish Cafè
    5. Archivio Contest & Esperienze
    6. Teecno
    7. il parser html più veloce
    Questa discussione è stata cancellata. Solo gli utenti con diritti di gestione possono vederla.
    • D
      domenico.biancardi User Attivo • ultima modifica di

      @Everfluxx said:

      Un consiglio: usatele il meno possibile, le funzioni di PHP basate su espressioni regolari. Sono molto più lente di str_replace() e str_ireplace().

      dove l'hai appresa questa cosa? posso farvi qualche pagina di test, ho i miei seri dubbi su questa affermazione

      0 Miglior Risposta Ringrazia Cita Rispondi

        1 Risposta Ultima Risposta
      • E
        everfluxx Super User • ultima modifica di

        @domenico.biancardi said:

        dove l'hai appresa questa cosa? posso farvi qualche pagina di test, ho i miei seri dubbi su questa affermazione E' cosa risaputa (mi pare ci sia anche un tip a riguardo nel manuale di PHP)...
        Comunque, se non ti fidi della mia affermazione, ti basta una semplice ricerca su Google per verificarla.

        0 Miglior Risposta Ringrazia Cita Rispondi

          1 Risposta Ultima Risposta
        • D
          domenico.biancardi User Attivo • ultima modifica di

          no no questione di affezioniamento verso le regular expression. fare operazioni complesse in una istruzione è sempre molto bello, magari a scapito della velocità.

          sta di fatto che per certe regex dovresti utilizzare 5-6 istruzioni di str_replace

          non so dovrei fare dei test rimango dubbioso

          0 Miglior Risposta Ringrazia Cita Rispondi

            1 Risposta Ultima Risposta
          • A
            albertoseo User Attivo • ultima modifica di

            Per le funzioni di parsing perché non vi appogiate al Perl: è dannatamente efficiente nella loro manipolazione...

            0 Miglior Risposta Ringrazia Cita Rispondi

              1 Risposta Ultima Risposta
            • U
              umor User Attivo • ultima modifica di

              Io ho un consiglio da darvi in base alla mia esperienza, calcolando che ho spiderizzato qualche milione di pagina web spero che vi possa essere utile.

              Fate enorme attenzione agli errori del codice html, non sembra ma incasinano di brutto.

              Sembra una boiata come consiglio, ma vi accorgerete che è un problema enorme!

              0 Miglior Risposta Ringrazia Cita Rispondi

                1 Risposta Ultima Risposta
              • A
                albertoseo User Attivo • ultima modifica di

                Quoto UMOR. La funzione parser_html da per scontate parecchie cose come ad esempio che la pagina sia conforme ad un DDT. Inoltre, non limitatevi a controllate la sola intestazione HTTP per capire se si tratti o meno di HTML (i campi HTTP HEADER sono manipolabili), ma affidatevi ad analisi spot.

                ... Colgo la palla la balzo per suggerirvi una chicca: sottoporre le pagine ad un validatore come quello del validator.w3.org.

                0 Miglior Risposta Ringrazia Cita Rispondi

                  1 Risposta Ultima Risposta
                • A
                  albertoseo User Attivo • ultima modifica di

                  Tratto da: http://infolab.stanford.edu/~backrub/google.html

                  Parsing -- Any parser which is designed to run on the entire Web must handle a huge array of possible errors. These range from typos in HTML tags to kilobytes of zeros in the middle of a tag, non-ASCII characters, HTML tags nested hundreds deep, and a great variety of other errors that challenge anyone's imagination to come up with equally creative ones.

                  0 Miglior Risposta Ringrazia Cita Rispondi

                    1 Risposta Ultima Risposta
                  • F
                    fra.t User Attivo • ultima modifica di

                    Ciao, una curiosità: l'output che deve dare la funzione e che serve a teecno è ancora quello iniziale?

                    Cosa fare nel caso ci siano due h1, si considera il secondo dato che dovrebbe essere più specifico?

                    0 Miglior Risposta Ringrazia Cita Rispondi

                      1 Risposta Ultima Risposta
                    • A
                      albertoseo User Attivo • ultima modifica di

                      @Fra_T said:

                      Cosa fare nel caso ci siano due h1, si considera il secondo dato che dovrebbe essere più specifico?

                      Infatti, lo sviluppo dei parser html è una area di ricerca molto interessante ma anche estremamente complessa. Io mi affiderei in questo caso alla stessa scelta dei motori di ricerca più importanti: mozilla. La piattaforma offre una serie di tool fantastici per l'analisi dei contenuti html attraverso l'interfaccia DOM standardizzata. Ciao

                      0 Miglior Risposta Ringrazia Cita Rispondi

                        1 Risposta Ultima Risposta
                      • 4
                        4ustat User • ultima modifica di

                        per quanto riguarda la gestione degli errori, proporrei la vecchia teoria delle iptable di linux (scusate se la prendo alla lunga :fumato: ) ossia e' valido solo quello che dichiariamo e non l'operazione contraria (ossia tutto valido tranne quello che gli diciamo noi) che mi sembra piu' ostica , visto che gli errori sono tanti e tali quasi da non poter essere classificati.

                        non so le regular expression sono più lente, ma di sicuro sono molto più affidabili, leggibili e robuste proprio perche' vanno nella direzione espressa sopra... ossia verificano esattamente cosa far passare

                        0 Miglior Risposta Ringrazia Cita Rispondi

                          1 Risposta Ultima Risposta
                        Caricamento altri post
                        Rispondi
                        • Topic risposta
                        Effettua l'accesso per rispondere
                        • Da Vecchi a Nuovi
                        • Da Nuovi a Vecchi
                        • Più Voti