Markov chain [lavoriamoci assieme]

umor

con 300kb sembra funzionare decente, anche se non mi piace molto il risultato.

Con 500kb riesce a generare quasi completamente e il risultato sembra molto buono.

Con più di 500kb sulla maggior parte dei webserver viene killato

umor

allora sono giunto a questa conclusione dopo un po di test:

Se ci si basa su testo "bello" bastano 100kb per produrre una pagina di 1000 parole con senso compiuto e non un'accozzaglia di spam.
Se ci si basa su testo "brutto" almeno almeno 400kb per tirar fuori qualcosa di decente.

paolo

a dire la verità anche a me genera testo ripetuto, però, come dice kerouac, il problema consiste nella "scarsa" (almeno per questo script) disponibilità di testo.

kerouac3001

Se il testo non è monotematico lo script non funziona..quindi usate solo testo monotematico..il problema dei kb dipende appunto dal server e l'avevo già notato (mi pare di averlo scritto nella guida).

Il punto è questo:

se non esistono abbastanza coppie di parole uguali, lo script ha poche possibilità di scelta..quindi rischia di arrivare ad un punto morto e ripetere sempre la stessa frase. Io vi consiglio 100kb di testo monotematico

umor

io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..

kerouac3001

@uMoR said:

io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..

Io prima o poi vorrei provare a usare come teso originale un testo generato tramite le markov chain..chissà cosa viene fuori

dell.orto.fabio

Come vi organizzate per i testi...

Li scrivete ?
Utilizzate un programma di ocr ?
Oppure ?

positano

@uMoR said:

io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..
Ci delucidi un pochino uMoR?

paolo

@Dell'Orto Fabio said:

Utilizzate un programma di ocr ?
Oppure ?

Cosa vuol dire ocr?

Oppure copia e incolla

kerouac3001

premetto che non lo sapevo:

http://www.google.it/search?hl=it&q=define%3Aocr&btnG=Cerca+con+Google&meta=

paolo

azz, non si ha mai finito di imparare :bho:

cmq ecco alcuni link utili:

pagina con vari software ocr:
http://www.brothersoft.com/ocr_freeware_shareware_software_download_4.html

due software ocr gratuiti:
http://jocr.sourceforge.net/download.html
http://www.brothersoft.com/Utilities_Scanner_and_OCR_HTMLtoRTF_Converter_Easy_37843.html

anche se il HTMLtoRTF forse non l'ho capito bene

lowlevel

@paolo said:

Oppure copia e incolla

Se si copia dal Web, è una pessima idea.

Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

paolo

@LowLevel said:

@paolo said:

Oppure copia e incolla

Se si copia dal Web, è una pessima idea.

Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

d'accordo d'accordo, però esiste qualche documento che Google non conosce ancora? Tieni conto che ci sono dei siti che riproducono letteralmente intere opere letterarie, qualche mese ho trovato la Divina Commedia intera in un sito web...

cmq, se devo scrivermi il testo scopiazzando o "ocrando ( () )", alla fine a cosa servono le markov chain se non mi risparmiano ore di lavoro?

umor

Se si copia dal Web, è una pessima idea.
Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

Perchè ?
Allora tu dici giustamente che usando il vocabolario di un'altro documento il filtro antiduplicazione parte.. giustamente..

Ma se uso il vocabolario di 200 pagine web ?
Se ne accorge ancora ?

paolo

@LowLevel said:

Se si copia dal Web, è una pessima idea.

Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

forse sei un pò troppo pessimista, se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole, però se un concorrente ha messo il sito prima di te, Google ti banna?

oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi? Sono tutti bannati ecceto il più antico?

:bho:

d0main

Decisamente interessante questa implementazione.
Tempo fa avevo studiato una cosa simile basata su testi semicasuali in inglese ma i risultati erano decisamente di qualita' inferiore. Era basata quasi del tutto sulla ricorrenza nella lingua inglese di successioni predefinite di soggetto, verbo, complementi secondo una logica piuttosto lineare. Avevo un vocabolario di soggetti, verbi e complementi che veniva mischiato in modo semirandom e generava dei testi abbastanza "apparentemente corretti"

Avevo poi applicato una semplice funzione che linkasse a tutte le parole chiave che mi interessavano i siti che intendevo promuovere.

Per esempio a "cane e gatto" linkava sempre www.sitodigattiecani.ext, a "pesce fritto" www.pescesaltatoinpadellaelatrimisteri.ext e cosi' via associando sempre ad un termine o ad una coppia di termini un link univoco

Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

lowlevel

@uMoR said:

Ma se uso il vocabolario di 200 pagine web ?
Se ne accorge ancora ?

No. Mi riferivo alla copia di un singolo documento.

E' meglio copiare da 10 brevi documenti diversi che da un documento lungo.

se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole

Non sono d'accordo. Con un po' di originalità si possono fare cose eccellenti.

In particolar modo, se l'obiettivo è solo quello di creare un testo di partenza, dal quale tirar fuori decine di doorway, ci si può sbizzarrire parecchio, sempre rimanendo in tema.

oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi?

Che usano lo stesso identico vocabolario? Presumo nessuno.

Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.

Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.

d0main

@LowLevel said:

Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.

Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.

Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio? Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante

paolo

parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

[URL=http://www.solidpdf.com/download.htm/]Solid PDF to WORD converter

l'ho provato e funziona divinamente, è in trial per 15 giorni

lowlevel

@d0main said:

Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio?

Ci sono centinaia di fattori da prendere inconsiderazione, per creare un algoritmo in grado di creare testo "simil-naturale".

I criteri che evidenziavo io sono solo alcuni tra i tanti.

Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante

...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.

I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.

parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

Non è un OCR. E' solo un convertitore di file PDF->Word.