• User Attivo

    io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..


  • Super User

    @uMoR said:

    io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..

    Io prima o poi vorrei provare a usare come teso originale un testo generato tramite le markov chain..chissà cosa viene fuori 😄


  • Bannato Super User

    Come vi organizzate per i testi...

    Li scrivete ?
    Utilizzate un programma di ocr ?
    Oppure ?

    🙂


  • Bannato User Attivo

    @uMoR said:

    io ho aggiunto parecchi filtri sui testi e con 100kb vengono fuori cose carine..
    Ci delucidi un pochino uMoR?


  • User Attivo

    @Dell'Orto Fabio said:

    Utilizzate un programma di ocr ?
    Oppure ? 🙂

    Cosa vuol dire ocr?

    Oppure copia e incolla 😄 😄 😄


  • Super User

  • User Attivo

    azz, non si ha mai finito di imparare :bho:

    cmq ecco alcuni link utili:

    pagina con vari software ocr:
    http://www.brothersoft.com/ocr_freeware_shareware_software_download_4.html

    due software ocr gratuiti:
    http://jocr.sourceforge.net/download.html
    http://www.brothersoft.com/Utilities_Scanner_and_OCR_HTMLtoRTF_Converter_Easy_37843.html

    anche se il HTMLtoRTF forse non l'ho capito bene


  • Super User

    @paolo said:

    Oppure copia e incolla 😄 😄 😄

    Se si copia dal Web, è una pessima idea.

    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.


  • User Attivo

    @LowLevel said:

    @paolo said:

    Oppure copia e incolla 😄 😄 😄

    Se si copia dal Web, è una pessima idea.

    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

    d'accordo d'accordo, però esiste qualche documento che Google non conosce ancora? Tieni conto che ci sono dei siti che riproducono letteralmente intere opere letterarie, qualche mese ho trovato la Divina Commedia intera in un sito web...

    cmq, se devo scrivermi il testo scopiazzando o "ocrando ( () )", alla fine a cosa servono le markov chain se non mi risparmiano ore di lavoro?


  • User Attivo

    Se si copia dal Web, è una pessima idea.
    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

    Perchè ?
    Allora tu dici giustamente che usando il vocabolario di un'altro documento il filtro antiduplicazione parte.. giustamente..

    Ma se uso il vocabolario di 200 pagine web ?
    Se ne accorge ancora ?


  • User Attivo

    @LowLevel said:

    Se si copia dal Web, è una pessima idea.

    Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.

    forse sei un pò troppo pessimista, se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole, però se un concorrente ha messo il sito prima di te, Google ti banna?

    oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi? Sono tutti bannati ecceto il più antico?

    :bho:


  • User Attivo

    Decisamente interessante questa implementazione.
    Tempo fa avevo studiato una cosa simile basata su testi semicasuali in inglese ma i risultati erano decisamente di qualita' inferiore. Era basata quasi del tutto sulla ricorrenza nella lingua inglese di successioni predefinite di soggetto, verbo, complementi secondo una logica piuttosto lineare. Avevo un vocabolario di soggetti, verbi e complementi che veniva mischiato in modo semirandom e generava dei testi abbastanza "apparentemente corretti"

    Avevo poi applicato una semplice funzione che linkasse a tutte le parole chiave che mi interessavano i siti che intendevo promuovere.

    Per esempio a "cane e gatto" linkava sempre www.sitodigattiecani.ext, a "pesce fritto" www.pescesaltatoinpadellaelatrimisteri.ext e cosi' via associando sempre ad un termine o ad una coppia di termini un link univoco

    Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?


  • Super User

    @uMoR said:

    Ma se uso il vocabolario di 200 pagine web ?
    Se ne accorge ancora ?

    No. Mi riferivo alla copia di un singolo documento.

    E' meglio copiare da 10 brevi documenti diversi che da un documento lungo.

    se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole

    Non sono d'accordo. Con un po' di originalità si possono fare cose eccellenti.

    In particolar modo, se l'obiettivo è solo quello di creare un testo di partenza, dal quale tirar fuori decine di doorway, ci si può sbizzarrire parecchio, sempre rimanendo in tema.

    oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi?

    Che usano lo stesso identico vocabolario? Presumo nessuno.

    Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

    Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.

    Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.


  • User Attivo

    @LowLevel said:

    Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?

    Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.

    Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.

    Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio? Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante


  • User Attivo

    parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

    [URL=http://www.solidpdf.com/download.htm/]Solid PDF to WORD converter

    l'ho provato e funziona divinamente, è in trial per 15 giorni


  • Super User

    @d0main said:

    Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio?

    Ci sono centinaia di fattori da prendere inconsiderazione, per creare un algoritmo in grado di creare testo "simil-naturale".

    I criteri che evidenziavo io sono solo alcuni tra i tanti.

    Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante

    ...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.

    I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.

    parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

    Non è un OCR. E' solo un convertitore di file PDF->Word.


  • User Attivo

    @LowLevel said:

    ...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.

    I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.

    ingenuamente anch'io avevo proposto una cosa simile, ma allora come linkare 50 pagine in modo poco evidente... ?


  • User Attivo

    @LowLevel said:

    parlando di OCR e di reperire testi nella rete, ho trovato questo programmino

    Non è un OCR. E' solo un convertitore di file PDF->Word.

    Si si, lo so che non è un OCR, fino qui ci arrivo anch'io, però può servire per gli stessi scopi, soprattutto per chi non ha uno scanner


  • User Attivo

    @Nic0 said:

    @LowLevel said:

    ...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.

    I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.

    ingenuamente anch'io avevo proposto una cosa simile, ma allora come linkare 50 pagine in modo poco evidente... ?

    Istintivamente andrei a linkare le pagine tra di loro con un semplice link "prosegui" ma temo sia troppo visibile. Non andrei a usare link con parole chiave ma userei qualcosa di standard tipo "Prosegui" proprio per evitare di insospettire troppo i motori.
    Qualcuno ha esperienze in merito?

    Andare a linkare tra di loro le pagine tra server diversi in modo random non e' troppo complesso. L'unica mia perplessita' e' lo schema di costruzione dei nomi pagina. Credete che possa accorgere di grosse quantita' di nomi pagina uguali su server diversi e possa in qualche modo penalizzarli?


  • User Attivo

    Una piccola curiosita' sullo script php che kerouac ha creato, se inserisco due parole chiave che non esistono o non sono affiancate all'interno dei testi che ho scelto, cosa succede esattamente?

    Un qualche testo lo genera ugualmente, quindi non riesco a capire da dove parte e con quale logica.

    Forse e' una domanda stupida, ma questo script mi pare veramente bello e ben fatto e mi sto divertendo parecchio ad aggiungerci piccoli dettagli per sperimentare un po' 😄

    MODIFICATO: come non detto, se non trova la parola ovviamente non funziona. Sono fuso io :fumato: