Eliminare URL dalla serp do google

giosan

Eliminare URL dalla serp do google

Buongiorno a tutti,

ho questo problema:

google mi ha indicizzato tutto l'albero delle directory del mio server per un disguido e vorrei correggere l'indicizzazione.

Cerco di spiegarmi meglio, ho questa struttura nel mio server:

[...]/websites/
[...]/websites/sito_1
[...]/websites/sito_2
[...]/websites/sito_3
.
.
.
[...]/websites/sito_n

la directory [...]/websites/ ha url nome.dominioRoot.it

ogni directory del tipo [...]/websites/sito_n è raggiungibile da un url del tipo www-sito_n-it

ora è successo che google ha indicizzato url del tipo nome.dominioRoot.it/sito_n che sono pagine del sito www-sito_n-it
cioè la pagina sito www-sito_n-it/pagina_k.html è indicizzata anche come nome.dominioRoot.it/sito_n/pagina_k.html.

Otretutto nel caso in cui il sito_n sia in joomla le pagine del tipo nome.dominioRoot.it/sito_n/pagina_k.html indicizzate sono anche pagine del tutto sconclusionate.

Come posso fare ad eliminare dalle serp tutte le pagine che google ha individuato in nome.dominioRoot.it?

se metto un file robots.txt con il disallow in [...]/websites/, cioè nella root delle mie directory che contengono i siti, ha influenza sui miei domini del tipo www-sito_n-it che fanno riferimento alle sotto-directory [...]/websites/sito_n?

Spero di essermi spiegata e ringrazio chiunque abbia avuto la pazienza di seguire il mio post fino a qui e di comprendere il mio problema

Giovanna

federico.sasso

Ciao Giovanna,
@giosan said:

se metto un file robots.txt con il disallow in [...]/websites/, cioè nella root delle mie directory che contengono i siti, ha influenza sui miei domini del tipo www-sito_n-it che fanno riferimento alle sotto-directory [...]/websites/sito_n?

Spero d'aver compreso correttamente la domanda.

Per i motori di ricerca ogni dominio obbedisce a un proprio robots.txt
Puoi bloccare le /websites/ dal robots.txt del dominio di root, come hai ipotizzato:

# dentro nome.dominioRoot.it/robots.txt
User-agent: *
Disallow: /websites/

Una volta bloccate da robots.txt è possibile richiedere la rimozione da Google WebMaster Tools. Purtroppo è disponibile solo per i singoli URL, a quanto ne so.

Se gli URL indesiderati fossero davvero troppi, la richiesta di rimozione potrebbe non essere una via facilmente percorribile.
Se amministri i sotto siti l'uso del canonical URL dovrebbe prevenire la duplicazione del contenuto; in tale caso però il crawler deve essere in grado di visitare la pagina e processare il canonical.

Spero d'esserti stato d'aiuto

giosan

Ciao Federico grazie!

Quindi come pensavo il robot.txt non influenza i siti che fanno riferimento alle sotto directory ...

Ma se non rimuovo gli url non spariscono lo stesso nel tempo dalla serp?

federico.sasso

@giosan said:

se non rimuovo gli url non spariscono lo stesso nel tempo dalla serp?
Ni... non esattamente.

Il robots.txt inibisce la crawlata, non l'indicizzazione.
Pagine bloccate possono essere indicizzate (in Google le visualizzi in genere cliccando nell'ultima SERP su un link che recita "altri risultati omessi" o qualcosa di simile).
In particolare quando vi sono diversi inbound links, Google può decidere di indicizzare URL bloccati pensando sia nell'interesse degli utenti (di solito usa l'anchor text come titoli, in questi casi).
Morale: una volta indicizzato un URL, non vi è garanzia che possa essere de-indicizzato solo bloccandolo nel robots.txt ... però è verosimile che accada.

Ciao

federico.sasso

Giovanna: nota che ho corretto il commento nell'esempio di robots.txt frutto di un copiaincolla frettoloso!
il/i robots.txt da modificare è quello relativo agli URL indesiderati
Ciao

giosan

Grazie delle preziose spiegazioni !!