Pagine Duplicate Involontarie: errore di Google

giorgiotave

Ciao 444523,

ma il robots.txt dove lo hai inserito?

444523

Ciao 444523,

ma il robots.txt dove lo hai inserito?

Mi aspettavo questa domanda... infatti il dubbio per qualche secondo era venuto anche a me...

dunque il robots.txt è stato ovviamente inserito nella root del sito ed è raggiungibile sia da domino.com/robots.txt che a quel punto anche da
che da ip/ ~pincopalla_account/

In pratica sarebbe anche nella root dell'account con ip, appena googlebot lo legge dovrebbe non indicizzare più la cartella ~pincopalla_account/

Hai qualche dubbio in merito? Vi farò da cavia, probabilmente è qualcosa che capita davvero di rado... visto che nessuno tranne Giorgio ha risposto...

dsom

se fai così te li blocca entrambi.

per prima cosa devi trovare i link che ha fatto andare google su quell'ip direttamente.
io scommetterei su un menu di admin o una webmail poi i link relativi hanno fatto il resto...

per il resto riscriverei con dei 301 tutte le richieste a ip/pagina -> dominio/pagina.

dovresti poter essere capace di farlo... credo

444523

@dsom said:

se fai così te li blocca entrambi.

per prima cosa devi trovare i link che ha fatto andare google su quell'ip direttamente.
io scommetterei su un menu di admin o una webmail poi i link relativi hanno fatto il resto...

per il resto riscriverei con dei 301 tutte le richieste a ip/pagina -> dominio/pagina.

dovresti poter essere capace di farlo... credo

Avevo questo dubbio... ma ho verificato con il test inserito negli strumenti di google webmaster e in effetti mi blocca solo quella cartella che in realtà non esiste come percorso ufficiale nel dominio...
tutte le altre cartelle, che sono i veri link inseriti in Google, quelli ufficiali, insomma, il test me li dà come liberi d'essere scansionati...

Almeno il loro test robots.txt mi dà questo risultato...

Quanto tempo occorre prima che si verifichino i primi cambiamenti nelle serp? Immagino almeno qualche mese... qualcuno ha esperienza?

dsom

@444523 said:

dunque il robots.txt è stato ovviamente inserito nella root del sito ed è raggiungibile sia da domino.com/robots.txt che a quel punto anche da
che da ip/ ~pincopalla_account/ù

scusa ma se è raggiungibile da li non lo becca pure google...?

cmq la tempistica varia, per la rimozione di un dominio intero può impiegare anche mesi, questo tramite segnalazione di rimozione dall'indice a google.

con il robots però credo sia molto più breve, tipo recentemente a far spiderizzare una pagina precedentemente bloccata con un nofollow noindex ci ha messo 2 settimane, non so quante a bloccare un intero sito.

444523

@dsom said:

scusa ma se è raggiungibile da li non lo becca pure google...?

Scusa... sono un po' tardo nel capire, non ho compreso la domanda.

Prima il robots.txt non c'era, ora, inserito nella root del sito è raggiungibile sia dal dominio/robots.txt che ovviamente Ip/nome_account/robots.txt...

Sì certo che lo raggiunge, basta inserirlo nella root...

Nonostante il test mi dia raggiunginile il sito con l'indirizzo ufficiale e relative cartelle ho un po' paura di usare il metodo della "rimozione url"... preferisco attendere e vedere che succede...

dsom

allora, vediamo se capisco : tu hai messo un robots.txt (con scritto cosa?) in

/user/pincopalla_account/public_html/ o roba simile immagino

qusto è quindi raggiungibile da

http://124.456.45.71/~pincopalla_account/robots.txt
http://pincopalla.com/robots.txt

ora, non so cosa ci hai scritto dentro, ma per me se è cosi' si dovrebbe bloccare tutto

per questo ti dicevo di fare rewrite.

PS : non farei la rimozione dell'url, ti davo solo la tempistica per quella operazione.

444523

@dsom said:

allora, vediamo se capisco : tu hai messo un robots.txt (con scritto cosa?) in

/user/pincopalla_account/public_html/ o roba simile immagino

qusto è quindi raggiungibile da

http://124.456.45.71/~pincopalla_account/robots.txt
http://pincopalla.com/robots.txt

ora, non so cosa ci hai scritto dentro, ma per me se è cosi' si dovrebbe bloccare tutto

Sì, esatto, più o meno così...
nel robots.txt, oltre ad altri comandi di non seguire file .php (il sito è interamente in html con rebuild giornalieri) ho immesso il comando di non indicizzare esattamente la cartella ~pincopalla_account

Facendo una verifica sulle cartelle, direttamente dal domino, es: www.miodomino.com/cibi_avariati è perfettamente raggiungibile. così come tutte le cartelle seguendo l'url che incomincio con il dominio...

la cartella ~pincopalla_account che sotto di sè duplica tutte le pagine è invece bloccata sempre dal test che si può fare nel mio account di Google...

Oh, possiamo sempre scommetterci un caffè... tanto non baro, se mi blocca il sito si sentiranno le imprecazioni fin sul forum... ma non credo che accadrà...
:D:D:D

D'altronde posso verificare subito se il sito è bloccato, sempre nell'account webmaster c'è la sezione delle pagine scansionate mensilmente, se vedo che si blocca cancello subito tutto...

**edit---------------------
che poi sono proprio un morto di sonno, nell'account webmaster c'è proprio una sezione che ti segnala eventuali pagine bloccate dal robots.txt, basta dare un'occhiata lì e si capisce subito dalle prime scansioni cosa succede...

un giorno o l'altro con questa mia distrazione finirò sotto una macchina...
**

dsom

@444523 said:

Sì, esatto, più o meno così...
nel robots.txt, oltre ad altri comandi di non seguire file .php (il sito è interamente in html con rebuild giornalieri) ho immesso il comando di non indicizzare esattamente la cartella ~pincopalla_account

Facendo una verifica sulle cartelle, direttamente dal domino, es: www.miodomino.com/cibi_avariati è perfettamente raggiungibile. così come tutte le cartelle seguendo l'url che incomincio con il dominio...

la cartella ~pincopalla_account che sotto di sè duplica tutte le pagine è invece bloccata sempre dal test che si può fare nel mio account di Google...

Oh, possiamo sempre scommetterci un caffè... tanto non baro, se mi blocca il sito si sentiranno le imprecazioni fin sul forum... ma non credo che accadrà...
:D:D:D

D'altronde posso verificare subito se il sito è bloccato, sempre nell'account webmaster c'è la sezione delle pagine scansionate mensilmente, se vedo che si blocca cancello subito tutto...

**edit---------------------
che poi sono proprio un morto di sonno, nell'account webmaster c'è proprio una sezione che ti segnala eventuali pagine bloccate dal robots.txt, basta dare un'occhiata lì e si capisce subito dalle prime scansioni cosa succede...

un giorno o l'altro con questa mia distrazione finirò sotto una macchina...
**

ho capito,
quindi tu non hai messo in pincopalla un "Disallow : *" ma un "disallow /nomecartella/"

quindi se ci entra dal dominio, non può trovare la cartella (che è il dominio stesso), se ci entra dall'ip viene invece trovata e viene bloccata.

ok cosi funge

EDIT:

curiosità : hai capito come ha preso l'ip ha controllato eventuali interfacce webmail o admin linkate via ip?

444523

@dsom said:

ho capito,
quindi tu non hai messo in pincopalla un "Disallow : *" ma un "disallow /nomecartella/"

quindi se ci entra dal dominio, non può trovare la cartella (che è il dominio stesso), se ci entra dall'ip viene invece trovata e viene bloccata.

ok cosi funge

EDIT:

curiosità : hai capito come ha preso l'ip ha controllato eventuali interfacce webmail o admin linkate via ip?

Eh, dovrebbe funzionare, ma ho trovato un problema...
per funzionare sull'ip il robots.txt deve'essere a questo livello
ip/robots.txt
e non ip/nome_account/robots.txt

Ho cercato in Internet e alcuni server hanno proprio ip/robots.txt che è perfettamente visibile dall'esterno... io non riesco a renderlo visibile all'esterno, forse sbaglio posto...

azz... vediamo se qualcuno mi aiuta sul loro forum... a meno che qualche anima buona non sia già esperta qui...
:D:D:D

Per l'ip trovato da Google dev'essere un'immagine che era collegata all'ip e non al dominio, quando ho fatto il trasferimento del sito l'ho ri-costruito tramite ip e poi aluni link ho dimenticato di modificarli... non capisco però come dall'immagine linkata all'ip abbia poi preso qualche migliaia di pagine...

dsom

@444523 said:

Eh, dovrebbe funzionare, ma ho trovato un problema...
per funzionare sull'ip il robots.txt deve'essere a questo livello
ip/robots.txt
e non ip/nome_account/robots.txt

ecco, io ci avevo pensato in realtà, ma mi son detto "se funziona, mi sbaglierò :D"
rimangono i suggerimenti di prima fondamentalmente

olanic

@444523 said:

A rigor di logica il dominio principale dovrebbe rimanere intatto, oppure per qualche logica particolare di googlebot mi rimuoverà dall'indice tutto il sito?

Scusate se mi intrometto ma se hai questo dubbio (se cancelli il sito dovrai aspettare un bel po prima di rivederlo ho letto da qualche parte almeno 6 mesi) perchè non fai una prova su una dir o su una singola pagina eliminadola, sempre tramite robot ma attraverso http://services.google.com/urlconsole/controller?cmd=reload&lastcmd=login
il servizio di G stesso?
Questo servizio ti consentirà di vedere (mi pare nelle 24h) il risultato.

ciao,
nicola

444523

@dsom said:

ecco, io ci avevo pensato in realtà, ma mi son detto "se funziona, mi sbaglierò :D"
rimangono i suggerimenti di prima fondamentalmente

Sì adesso è inserito bene... ce l'ho fatta!
Il bello è che un utente abituale di linux ci avrebbe messo 30 secondi mentre si mangiava un pezzo di pizza al pomodoro, beveva un po' di cocacola e si guardava un film porno in contemporanea...

io ci ho messo 1 ora a capire che il file robots.txt và inserito tramite ssh in var/www/html

ora funziona tutto, e anche i vari test tramite l'account di Google mi confermano che il dominio principale e relativi indirizzi sono liberi d'essere scansionati...
mentre ip/cartella_account ora è completamente bloccato impedendo la duplicazione del sito...

Vabbe' ho imparato qualcosa... se non ci saranno sorprese nelle prossime scansioni... vedremo. Cmq sembra tutto ok...

444523

@olanic said:

Scusate se mi intrometto ma se hai questo dubbio (se cancelli il sito dovrai aspettare un bel po prima di rivederlo ho letto da qualche parte almeno 6 mesi) perchè non fai una prova su una dir o su una singola pagina eliminadola, sempre tramite robot ma attraverso http://services.google.com/urlconsole/controller?cmd=reload&lastcmd=login
il servizio di G stesso?
Questo servizio ti consentirà di vedere (mi pare nelle 24h) il risultato.

ciao,
nicola

Grazie Olanic per il tuo intervento...
tieni presente che anche fosse sbagliata la mia idea, Google non ti cancella tutto il sito di colpo...

Gli strumenti webmaster nel tuo account di Google ti permettono di vedere già dalle prime scansioni se gli url "regolari" vengono bloccati... e sembrerebbe di no perchè puoi fare anche dei test in anticipo...

sicuramente (avendo la stessa paura tua) non farò la rimozione url... per quello eventualmente aspetto che le cose siano chiare al 100%...

444523

Riprendendo questa discussione
http://www.giorgiotave.it/forum/posizionamento-nei-motori-di-ricerca/35235-pagine-duplicate-involontarie-errore-di-google.html

mi sono fatto coraggio ed ho usato la sezione rimozione url/sito di Google.
Ho creato l'account ri-sottomesso il robots.txt del sito duplicato ip/cartella chiedendo a Google di rimuovere tutta la cartella fantasma dell'ip dove è collegato il dominio...

Una cosa impressionante: le pagine duplicate/fantasma erano circa 1500... ed erano lì da quasi 2 mesi... sono sparite in 2 ore! Ho fatto diversi controlli, non ci sono più... in 2 ore tutto cancellato da Google.

In 2 ore... e chi si apsettava una velocità stratosferica simile...

sono rimasto davvero colpito!
o:o

stuart

Grazie 444523 per la tua testimonianza,

ho unito il nuovo thread a quello originale per non tenere aperti più topic che parlano della stessa problematica.

Ti ho inviato un pm per informarti dello spostamento.

.Stuart

dsom