Istruzioni robots per pagine web che creano pdf

darius83

Istruzioni robots per pagine web che creano pdf

Ciao a tutti,

il mio dubbio è questo. Sto ottimizzando un sito web che prevede per ogni pagina la creazione di un pdf (con contenuti identici). In fase di analisi ho visto che tali pagine pdf sono state indicizzate da Google con stesso title tag delle normali pagine (cosa d'altronde normale). Mi chiedevo quindi se questi pdf possono dare origine a contenuti duplicati (probabile) e se fosse meglio escluderli dall'indice agendo sul robots oppure utilizzare il rel canonical sulle pagine originali. Quest'ultima operazioni mi sarebbe più complessa in quanto le pagine del sito sono numerose.

Spero di essere stato chiaro e resto in attesa dei vostri consigli

Grazie.

vnotarfrancesco

Ciao Darius83, i file pdf con lo stesso contenuto delle pagine html può essere considerato contenuto duplicato. Sarà l'algoritmo di Google a decidere di volta in volta se è meglio mostrare la pagina del tuo sito oppure la versione in pdf.

Una soluzione è quella di bloccare l'indicizzazione di queste risorse in pdf ma non bloccandole con le istruzioni nel file robots.txt ma inviando l'istruzione "noindex" nelle intestazioni http (Google indicizza comunque una risorsa bloccata nel file robots se trova dei riferimenti esterni).
Se utilizzi Apache come webserver puoi seguire l'esempio preso dalla guida di Google:

Io invierei solo il noindex, cioè non invierei anche il nofollow.

Valerio Notarfrancesco

darius83

Grazie mille! Seguirò sicuramente il tuo utilissimo consiglio!

dario