• User Attivo

    pdf immagine e contenuto duplicato

    Domanda a cui solo voi saprete rispondermi:
    se prendo un "pdf immagine" pubblicato su un altro sito, lo passo all'ocr e ne pubblico il testo come articolo sul mio sito, Google lo considera un articolo copiato o lo prende per buono?
    Chiaramente se fosse un pdf non immagine Google ne comprenderebbe il testo e non avrebbe piacere a vedere che è stato copiato e incollato.

    è una pratica che mi sconsigliereste o che può funzionare?

    Per chiarezza, l'esigenza non è semplicemente quella di ingolfare il mio sito di contenuti facilmente reperibili altrove, ma di pubblicare sentenze o parti di sentenze che sono funzionali all'argomento che tratto, nel senso che se esprimo un concetto nel mio articolo è bene citarne la fonte e magari pubblicarne la relativa documentazione.


    kyle46 sermatica 2 Risposte
  • User Attivo

    @alekos Di solito un PDF lo è tale, poiché colui che lo ha creato ci avrà anche creato un contenuto e pubblicato sul web. Puoi identificarlo semplicemente utilizzando un software antiplagio online come (Plagiarismdetector).

    Attenzione...

    Ci sono molte cose che Google non riesce a vedere, ma questo non significa che basti un semplice click per rubare i testi altrui.

    Supponiamo per un solo momento, che questo pdf non fosse mai stato pubblicato sul web come testo. Ebbene, lo stesso Google non lo classificherebbe mai come un duplicato, dal momento che non contiene plagio.

    Il problema vero e proprio arriva strada facendo... Chiediti cosa potrebbe fare l'autore del PDF, qualora si accorgesse che qualcuno, senza la sua autorizzazione scritta e verbale, lo ha pubblicato dal suo sito web?

    A questa domanda lascio rispondere a te. Pertanto... Buona fortuna!


    A 1 Risposta
  • User Attivo

    @kyle46 ha detto in pdf immagine e contenuto duplicato:

    @alekos Di solito un PDF lo è tale, poiché colui che lo ha creato ci avrà anche creato un contenuto e pubblicato sul web. Puoi identificarlo semplicemente utilizzando un software antiplagio online come (Plagiarismdetector).

    non conoscevo questo sito e ti ringrazio di avermelo segnalato.

    mi pare che, a parte la "predica", tu non mi abbia risposto sotto il punto di vista tecnico...o se lo hai fatto sono io a non aver compreso.

    per la predica non ti biasimo, ma non sono proprio di primo pelo.

    per metterci tutti in pace con la coscienza e poter affrontare la questione tecnica, ti chiarisco che i testi che vorrai "copiare" sono sentenze della Cassazione.
    Sono quindi testi pubblici, destinati, quindi semplicemente ad essere divulgati.

    Sono pdf che una volta messi on line circolano su una infinità di siti e nessuno sa più chi ha rubato il file da chi. Ma in ogni caso il furto resta relativo alla circolazione del file e non alla proprietà intellettuale di chi ha redatto la sentenza.
    Io vorrei semplicemente convertire questi pdf in formato testo e così forse (questo è il mio dubbio ed il succo della domanda) offrire a Google un contenuto inedito.

    Oppure Google (mediante un suo sistema di ocr o non so che altro) potrebbe anche riuscire a leggere nei pdf immagine e penalizzarmi per aver copiato il testo?

    Aggiungo che spesso questi pdf sono davvero scarsamente leggibili e anche l'ocr necessita di una certa correzione umana. Insomma, trasporli in modalità testo richiede lavoro e rende un servizio (rendendo questi testi stessi maggiormente fruibili).


    kyle46 1 Risposta
  • User Attivo

    @alekos Che io sappia.... Google non ha ancora implementato un sistema che conosce il testo in PDF, come anche i sottotitoli di youtube, figuriamoci in (OCR). Ripeto... Almenoché questi ultimi non siano stati pubblicati come "Testo" e già presenti sul web.

    Questo fa parte di un sistema innovativo antiplagio del futuro, e su questo ancora c'è molto da aspettare!


  • Moderatore

    @alekos ha detto in pdf immagine e contenuto duplicato:

    è una pratica che mi sconsigliereste o che può funzionare?

    Ciao,
    il servizio sarebbe utile agli utenti? Se si hai il permesso di ripubblicare questi testi? Aggiungeresti un tuo commento ai testi scansionati per renderli utili?

    Fammi sapere grazie.

    P.s.
    Mi sembra che questa questione era già stata posta sul forum e si parlava proprio di sentenze.


  • Moderatore

    Google vede e legge tutto. Che poi lo usi e come lo usi non è dato sapersi.