• Moderatore

    Ciao emmezeta,

    le pagine non devono sempre essere necessariamente rimosse (e restituire quindi il codice di stato http 404) .

    L'importante è che venga impedito ai crawler di accedere ai contenuti e ciò si può fare agendo sul file robots.txt o con il meta no index.

    Ovviamente puoi anche lavorare solo sul file robots.txt e basta.

    La differenza sta nel fatto che se segnali le url in Strumenti per Webmaster di Google, la rimozione sarà immediata (max 5 giorni), mentre non segnalandola, devi aspettare la prossima scansione di Google per la rimozione.


  • User

    Grazie per le informazioni, si come accennato conosco il tool di google per la segnalazione degli url da cancellare...

    Comunque mi confermate che se una pagina è nel robots.txt (Disallow) google è "obbligato" a toglierla?


  • User Attivo

    No, non "disallow" ma "noindex"

    Per confermare inoltre quello che dice pacoweb (soprattutto l'ultimo paragrafo):
    w w w .google.com/support/webmasters/bin/answer.py?answer=93710

    Ovviamente non so le tue esigenze specifiche, ma per non perdere l'eventuale link juice che la pagina che vuoi rimuovere ha acquisito potresti fare un redirect 301 ad un altra pagina...


  • User

    Eh hai ragione ma ho circa 150 siti su cui rimuovere circa 50-60 pagine (con parametri) mi viene da piangere solo al pensiero di segnalare ogni singolo URL da rimuovere.... non c'è modo più veloce o meno "indolore" ?

    Grazie mille!!


  • User Attivo
    • file robots.txt usando "noindex"
    • mod_rewrite 301 dalle pagine che vuoi cancellare alle pagine "nuove" (eventualmente l'homepage)

    Ciao!


  • User

    Attualmente c'è già il 301 nelle pagine che voglio rimuovere ma google ci stà mettendo un casino di tempo per toglierle...quindi devo abbinare il 301 a questa modifica nel robots.txt

    noindex: pagina.php?id=1
    noindex: pagina.php?id=2
    noindex: pagina.php?id=3

    ??
    È corretta la sintassi?

    Grazie mille!!!


  • User

    Ho letto il protocollo e noto che c'è solo Disallow: non esiste Noindex: nel protocollo del file....sbaglio?


  • User Attivo

    Effettivamente a quanto pare "noindex" e "nofollow" sono standard che si riferiscono al META tag "robots" - ma a quanto pare Google stesso lo usa anche nel file robots.txt:
    sebastians-pamphlets . com/about-noindex-crawler-directives-in-robots-txt/

    Quindi penso che lo possa usare anche tu con la sintassi che hai detto.

    In ultima istanza, comunque, non è facile togliere delle pagine dall'indice di Google (sebbene mi sembra strano che con un 301 non vengano immediatamente sostituite con quelle nuove...)


  • User

    No allora vengono levate le pagine....solo che per certe pagine google non ci accede da novembre °_° appunto per questo non ha ancora trovato il 301.

    Per un sito ho provato il tool di rimozione...vediamo se funziona 😄


  • User

    Scusa paco, sono un neonato in confronto a voi in questo campo, ma siccome avevo rimosso alcune pagine giorni fa e il tool recitava così:

    "Per farlo, accertati che ogni pagina restituisca un codice di stato HTTP 404 o 410 oppure utilizza un file robots.txt o un metatag noindex per impedire ai crawler di accedere ai contenuti"

    ...ho cercato di dare il mio contributo al forum ma come giustamente dici tu non è necessario il 404, sorry!


  • Moderatore

    Ciao emmezeta :),

    non ti devo assolutamente scusare... ;).

    Anzi, continua a dare sempre il tuo contributo sul forum! Qui siamo tutti per imparare e migliorarci, dandoci suggerimenti e consigli a vicenda.

    :ciauz: