Devo bloccare l'accesso del crowler ad alcuni contenuti?

costadilevante

Devo bloccare l'accesso del crowler ad alcuni contenuti?

Presento il problema in sintesi:
ho il sito ebooksopen.org. Dal sito si possono scaricare ebooks con licenza libera, ad esempio i classici della letteratura. I libri che si possono scaricare li ho impaginati io, aggiungendo una copertina, la divisione in capitoli ed eventuali note a piè di pagina. Il testo dei libri, naturalmente, lo hanno scritto i rispettivi autori. Ogni libro da scaricare ha una sua pagina web da cui effettuare il download. Faccio un esempio:
da ebooksopen.org/it/libro-senilita-di-italo-svevo/ si può scaricare il libro che è ebooksopen.org/epubs/Senilita-139688236.epub.
Il contenuto del libro è di fatto il testo scritto da Italo Svevo, suppongo che google lo consideri contenuto duplicato. Per evitare una penalizzazione devo impostare il robot.txt in modo che non vada a leggere la cartella epubs? E, in questo caso, nel link della pagina per eseguire il download ci devo mettere qualche attributo, tipo nofollow, perchè google non lo indicizzi comunque?
Oppure trattandosi di un epub da scaricare posso lasciare tutto come sta?
Spero di essere stato chiaro,
Luciano

Dominio:
ebooksopen.org
Motori:
Google
Prima indicizzazione o attività:
Dominio acquistato nel 2012, sito pubblicato nel 2014
Cambiamenti effettuati:
Aggiungo un epub al giorno con relativa pagina di descrizione
Eventi legati ai link:
Niente di particolare
Sito realizzato con:
PHP + MySQL
Come ho aumentato la popolarità:
Nulla
Chiavi:
ebooks, libri, copyleft
Sitemaps:
Si

juanin

Se vuoi bloccare l'accesso a una cartella devi fare
Disallow: /epubs/

Se vuoi evitare invece l'indicizzazione devi usare il noindex nelle intestazioni http degli epubs.

Ovviamente il disallow esclude il noindex perché il crawler non potrai mai accedere e dunque non potrà mai leggere il contenuto della risorsa.
Il disallow da solo però non garantisce la non indicizzazione perché il file potrebbe essere linkato da qualche parte.

Da un punto di vista di contenuto duplicato per il tuo caso va bene il disallow perché così il crawler non leggerai mai il contenuto della risorsa.