• User Attivo

    Pdf v html contenuto dupplicato

    Salve,

    mezz'anno fa ho pubblicato un documento in pdf. Il file e indicizzato da Google ma non riesco a posizionarlo bene. Ora vorrei ripubblicare il contenuto in html su un altro sito.
    La mia domanda e se Google prendera la nuova pagina in html come un dupplicato del file in pdf o no. Eventualmente come devo procedere se non voglio togliere il vecchio file (anche perche e linkato e viene scaricato abbastanza spesso).


  • Moderatore

    Ciao PragueSeeing,
    il file in HTLM potrà essere visto come duplicato del pdf: questo porterà alla probabile esclusione dalle serp di uno dei due documenti.

    Se il pdf non porta traffico e pensi di poter ottimizzare meglio la nuova versione in HTML allora lo puoi bloccare attraverso il file robots.txt: resterà scaricabile, ma non verrà scansionata dal motore né restituita in serp.

    In alternativa puoi pubblicare un nuovo pdf, da riposizionare con la solita url, con contenuti aggiornati o testi ottimizzati per le ricerche che vuoi attrarre.

    Penso che su queste due soluzioni si possa discutere, ma ovviamente si accettano anche nuove indicazioni.

    Per il momento ti auguro buon lavoro!


  • User Attivo

    Ciao e grazie per la risposta. Penso proprio di usare la prima soluzione; questo anche perche il file in PDF non voglio cambiarlo. E un file fatto per i clienti che riporta tante informazioni turistiche e quindi senza dividerlo in piu files non riesco a posizionarlo bene. La versione in HTML mi permette invece di dividere il contenuto in pui sezioni a patto che conservo il PDF originale scaricabile anche se non visibile ai MDR.

    Il dubbio che mi rimane e se devo creare robots.txt e aspettare quando il PDF non sara piu indicizzato per pubblicare la versione in HTML. Oppure se posso fare le due azioni insieme. Cioe non vorrei che la nuova versione in HTML finisse nel Sandbox di Google come contenuto dupplicato.


  • Moderatore

    Se blocchi il file via robots.txt e richiedi la cancellazione dell'url negli Strumenti per Webmaster di Google riesci a rimuovere il pdf dall'indice in massimo un paio di giorni.

    In ogni caso la leggera sovrapposizione non dovrebbe preoccuparti più di tanto.

    Buon lavoro!


  • User Attivo

    LaBussola: grazie di tutto! Sai, mi preoccupo di ogni piccola cosa perche con quello che guadagna il sito io mangio, pago l'affitto, ecc. Cioe non faccio solo webmaster del sito ma anche fornitore diretto del servizio offerto da esso :))).


  • Moderatore

    Ciao LaBussola,

    il file in HTLM potrà essere visto come duplicato del pdf: questo porterà alla probabile esclusione dalle serp di uno dei due documenti.
    Sei sicuro? Io ero rimasto che Google li vedeva come due file diversi a prescindere...


  • Moderatore

    Sono ragionevolmente sicuro.

    Un dipendente Google, in questo post, la pensa così:

    You generally do not need to worry about duplicate content in a situation like this, even if you decide to mirror the content of your PDFs on HTML pages. If we recognize the URLs as containing duplicate content, we'll just show one of them to users when they search; your site generally wouldn't have any disadvantage by doing this.


  • User Newbie

    Salve

    Recentemente ho avuto la stessa domanda in relazione ai contenuti duplicati PDF e HTML. Ne ho parlato con John Müller nel Google office hours.
    Al contrario di quello che ha detto nel 2010, ora (2022) sta dicendo che sia PDF che HTML possono competere l'uno contro l'altro. Ma normalmente i PDF hanno prestazioni peggiori perché non hanno tanti link interni.
    L'ho riassunto in questo blogpost:
    https://corinaburri.com/comparision-ctr-from-serp-html-vs-pdf#pdf-html-publishing

    E qua il link al Google office hour:

    Corina