• User Attivo

    con 300kb sembra funzionare decente, anche se non mi piace molto il risultato.

    Con 500kb riesce a generare quasi completamente e il risultato sembra molto buono.

    Con più di 500kb sulla maggior parte dei webserver viene killato


  • User Attivo

    allora sono giunto a questa conclusione dopo un po di test:

    Se ci si basa su testo "bello" bastano 100kb per produrre una pagina di 1000 parole con senso compiuto e non un'accozzaglia di spam.
    Se ci si basa su testo "brutto" almeno almeno 400kb per tirar fuori qualcosa di decente.


  • User Attivo

    a dire la verità anche a me genera testo ripetuto, però, come dice kerouac, il problema consiste nella "scarsa" (almeno per questo script) disponibilità di testo.


  • Super User

    Se il testo non è monotematico lo script non funziona..quindi usate solo testo monotematico..il problema dei kb dipende appunto dal server e l'avevo già notato (mi pare di averlo scritto nella guida).

    Il punto è questo:

    se non esistono abbastanza coppie di parole uguali, lo script ha poche possibilità di scelta..quindi rischia di arrivare ad un punto morto e ripetere sempre la stessa frase. Io vi consiglio 100kb di testo monotematico


  • User Attivo

    io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..


  • Super User

    @uMoR said:

    io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..

    Io prima o poi vorrei provare a usare come teso originale un testo generato tramite le markov chain..chissà cosa viene fuori 😄


  • Bannato Super User

    Come vi organizzate per i testi...

    Li scrivete ?
    Utilizzate un programma di ocr ?
    Oppure ?

    🙂


  • Bannato User Attivo

    @uMoR said:

    io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..
    Ci delucidi un pochino uMoR?


  • User Attivo

    @Dell'Orto Fabio said:

    Utilizzate un programma di ocr ?
    Oppure ? 🙂

    Cosa vuol dire ocr?

    Oppure copia e incolla 😄 😄 😄


  • Super User

  • User Attivo

    azz, non si ha mai finito di imparare :bho:

    cmq ecco alcuni link utili:

    pagina con vari software ocr:
    http://www.brothersoft.com/ocr_freeware_shareware_software_download_4.html

    due software ocr gratuiti:
    http://jocr.sourceforge.net/download.html
    http://www.brothersoft.com/Utilities_Scanner_and_OCR_HTMLtoRTF_Converter_Easy_37843.html

    anche se il HTMLtoRTF forse non l'ho capito bene


  • Super User

    @paolo said:

    Oppure copia e incolla 😄 😄 😄

    Se si copia dal Web, è una pessima idea.

    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.


  • User Attivo

    @LowLevel said:

    @paolo said:

    Oppure copia e incolla 😄 😄 😄

    Se si copia dal Web, è una pessima idea.

    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

    d'accordo d'accordo, però esiste qualche documento che Google non conosce ancora? Tieni conto che ci sono dei siti che riproducono letteralmente intere opere letterarie, qualche mese ho trovato la Divina Commedia intera in un sito web...

    cmq, se devo scrivermi il testo scopiazzando o "ocrando ( () )", alla fine a cosa servono le markov chain se non mi risparmiano ore di lavoro?


  • User Attivo

    Se si copia dal Web, è una pessima idea.
    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

    Perchè ?
    Allora tu dici giustamente che usando il vocabolario di un'altro documento il filtro antiduplicazione parte.. giustamente..

    Ma se uso il vocabolario di 200 pagine web ?
    Se ne accorge ancora ?


  • User Attivo

    @LowLevel said:

    Se si copia dal Web, è una pessima idea.

    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

    forse sei un pò troppo pessimista, se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole, però se un concorrente ha messo il sito prima di te, Google ti banna?

    oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi? Sono tutti bannati ecceto il più antico?

    :bho:


  • User Attivo

    Decisamente interessante questa implementazione.
    Tempo fa avevo studiato una cosa simile basata su testi semicasuali in inglese ma i risultati erano decisamente di qualita' inferiore. Era basata quasi del tutto sulla ricorrenza nella lingua inglese di successioni predefinite di soggetto, verbo, complementi secondo una logica piuttosto lineare. Avevo un vocabolario di soggetti, verbi e complementi che veniva mischiato in modo semirandom e generava dei testi abbastanza "apparentemente corretti"

    Avevo poi applicato una semplice funzione che linkasse a tutte le parole chiave che mi interessavano i siti che intendevo promuovere.

    Per esempio a "cane e gatto" linkava sempre www.sitodigattiecani.ext, a "pesce fritto" www.pescesaltatoinpadellaelatrimisteri.ext e cosi' via associando sempre ad un termine o ad una coppia di termini un link univoco

    Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?


  • Super User

    @uMoR said:

    Ma se uso il vocabolario di 200 pagine web ?
    Se ne accorge ancora ?

    No. Mi riferivo alla copia di un singolo documento.

    E' meglio copiare da 10 brevi documenti diversi che da un documento lungo.

    se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole

    Non sono d'accordo. Con un po' di originalità si possono fare cose eccellenti.

    In particolar modo, se l'obiettivo è solo quello di creare un testo di partenza, dal quale tirar fuori decine di doorway, ci si può sbizzarrire parecchio, sempre rimanendo in tema.

    oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi?

    Che usano lo stesso identico vocabolario? Presumo nessuno.

    Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

    Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.

    Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.


  • User Attivo

    @LowLevel said:

    Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

    Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.

    Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.

    Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio? Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante


  • User Attivo

    parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

    [URL=http://www.solidpdf.com/download.htm/]Solid PDF to WORD converter

    l'ho provato e funziona divinamente, è in trial per 15 giorni


  • Super User

    @d0main said:

    Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio?

    Ci sono centinaia di fattori da prendere inconsiderazione, per creare un algoritmo in grado di creare testo "simil-naturale".

    I criteri che evidenziavo io sono solo alcuni tra i tanti.

    Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante

    ...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.

    I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.

    parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

    Non è un OCR. E' solo un convertitore di file PDF->Word.