Rimozione pagine inesistenti

artistic101

Rimozione pagine inesistenti

Ciao a tutti, mi ritrovo molte pagine indicizzate da Google che di fatto non esistono, nel senso: l'url indicizzato non restituisce un errore 404 ma la pagina fisicamente non esiste. Questo un esempio: http://www.google.it/#hl=it&source=hp&q=%2FUtility.aspx%2FForum%2FForum%2FDownload%2FBrowser%2FDownload%2FUtility%2FAdobe-Reader-9-3.aspx&btnG=Cerca+con+Google&aq=f&aqi=&aql=&oq=%2FUtility.aspx%2FForum%2FForum%2FDownload%2FBrowser%2FDownload%2FUtility%2FAdobe-Reader-9-3.aspx&gs_rfai=&fp=656d9336256c2714
oltre a bloccarle tramite robots.txt c'è qualche altra cosa che posso fare perchè queste scompaiano dagli indici di Google? Grazie.:)

marco.quadrella

Ciao artistic101,

se una pagina è bloccata da robots.txt o ha il metatag "noindex", pur non restituendo un errore 404, puoi richiedere che venga rimossa dall'indice di Google attraverso gli Strumenti per Webmaster di Google.

Vai in "Configurazione sito", poi "Accesso crawler" e infine "Rimuovi URL".

Risolto?

artistic101

Ciao! Le pagine sono tutte bloccate dal robots.txt però non le ho rimosse tramite il webmaster tools perchè avevo letto da qualche parte che dovevano per forza restituire l'errore 404.
P.S. Non capisco come siano state indicizzate pagine di quel tipo, ad esempio nella serp che ho postato è stata indicizzata una pagina che di fatto non esiste, la cosa ancora più strana è che se accedo a tale pagina, viene aperta come se esistesse (in realtà apre la prima pagina dell'url).
Hai qualche idea in merito? Grazie mille ******

marco.quadrella

Non so nello specifico come sia potuto capitare, comunque ciò di cui hai bisogno affinché ciò non accada più è il rel canonical: se più url specificano la medesima pagina, fai in modo che su questa pagina vi sia un elemento "link" di questo tipo che indirizzi all'originale.
Nel tuo esempio, il codice da inserire dovrebbe essere questo:

<link rel="canonical" href="http://www.programmigratis.org/Utility.aspx"/>
```[Qui](http://www.google.com/support/webmasters/bin/answer.py?hl=it&answer=139394) puoi approfondire.

Per quanto riguarda gli Strumenti per Webmaster di Google, le possibili situazioni nelle quali è lecito richiedere la rimozione le trovi [qua](http://www.google.com/support/webmasters/bin/answer.py?answer=59819&hl=it).

artistic101

Ciao! Grazie per la risposta, leggo che il rel canonical è la versione preferita di una serie di pagine con contenuti molto simili. Ma non penso sia questo il mio caso, la pagina in questione non è molto simile a nessuna delle altre. Ad ogni modo ora l'unico problema rimasto è una serp con un Title in cui compare una parola che in realtà nel title non c'è: http://www.google.it/#hl=it&q=http%3A%2F%2Fwww.programmigratis.org%2FAntivirusFree.aspx&aq=f&aqi=g1&aql=&oq=&gs_rfai=&fp=9b05163890167ad5 il primo risultato... Stranissimo.... Mi capitò una volta dopo l'uso di alcuni redirect ma ora non so proprio da cosa dipenda... :?:x

marco.quadrella

Il rel canonical si usa, come giustamente dici, per segnalare la versione preferita tra pagine simili (o uguali) con URL differenti.

Se tu decidi di utilizzare il codice che ti ho postato, quando il bot di Google entra da /Utility.aspx non succede nulla di particolare.
Quando però accede da /Utility.aspx/Forum/Forum/Download/Browser/Download/Utility/Adobe-Reader-9-3.aspx trova il medesimo codice (visto che le due pagine sono in realtà lo stesso documento) e capisce che quello che sta vedendo è solamente una copia: non indicizza e passa parte del valore di eventuali backlinks.

Ovviamente perché l'operazione abbia senso, dovresti inserire il <link> in tutte le pagine. Potrà essere oneroso ma risolveresti una volta per tutte il problema in modo ottimale e senza dover fare periodiche pulizie.

artistic101

Grazie mille LaBussola, ora ho risolto il problema eliminando tali pagine dal robots.txt, il problema sembra risolto anche se pare si ripresenti periodicamente. Certo è un mistero il fatto che siano state indicizzate pagine tipo questa (ora rimossa) /Utility.aspx/Forum/Forum/Download/Browser/Download/Utility/Adobe-Reader-9-3.aspx che in realtà non esisteva. Per fare ciò che dici tu avrei dovuto creare quella pagina e metterci il canonical. Ad ogni modo ora pare sia tutto ok, grazie mille!

marco.quadrella

No, non avresti dovuto creare alcuna pagina: le differenti URL portano al medesimo documento; il server restituisce precisamente il solito file.

Anche secondo la mia opinione il problema continuerà a presentarsi continuamente, a meno che tu non lo risolva lato server (rispondendo alle richieste in maniera differente) o realizzando la canonicalizzazione.

Qualunque strada tu decida di intraprendere, buon lavoro ed alla prossima occasione!