- Home
- Categorie
- La Community Connect.gt
- News Ufficiali da Connect.gt
- Pagine Duplicate Involontarie: errore di Google
-
@dsom said:
scusa ma se è raggiungibile da li non lo becca pure google...?
Scusa... sono un po' tardo nel capire, non ho compreso la domanda.
Prima il robots.txt non c'era, ora, inserito nella root del sito è raggiungibile sia dal dominio/robots.txt che ovviamente Ip/nome_account/robots.txt...
Sì certo che lo raggiunge, basta inserirlo nella root...
Nonostante il test mi dia raggiunginile il sito con l'indirizzo ufficiale e relative cartelle ho un po' paura di usare il metodo della "rimozione url"... preferisco attendere e vedere che succede...
-
allora, vediamo se capisco : tu hai messo un robots.txt (con scritto cosa?) in
/user/pincopalla_account/public_html/ o roba simile immagino
qusto è quindi raggiungibile da
http://124.456.45.71/~pincopalla_account/robots.txt
http://pincopalla.com/robots.txtora, non so cosa ci hai scritto dentro, ma per me se è cosi' si dovrebbe bloccare tutto
per questo ti dicevo di fare rewrite.
PS : non farei la rimozione dell'url, ti davo solo la tempistica per quella operazione.
-
@dsom said:
allora, vediamo se capisco : tu hai messo un robots.txt (con scritto cosa?) in
/user/pincopalla_account/public_html/ o roba simile immagino
qusto è quindi raggiungibile da
http://124.456.45.71/~pincopalla_account/robots.txt
http://pincopalla.com/robots.txtora, non so cosa ci hai scritto dentro, ma per me se è cosi' si dovrebbe bloccare tutto
Sì, esatto, più o meno così...
nel robots.txt, oltre ad altri comandi di non seguire file .php (il sito è interamente in html con rebuild giornalieri) ho immesso il comando di non indicizzare esattamente la cartella ~pincopalla_accountFacendo una verifica sulle cartelle, direttamente dal domino, es: www.miodomino.com/cibi_avariati è perfettamente raggiungibile. così come tutte le cartelle seguendo l'url che incomincio con il dominio...
la cartella ~pincopalla_account che sotto di sè duplica tutte le pagine è invece bloccata sempre dal test che si può fare nel mio account di Google...
Oh, possiamo sempre scommetterci un caffè... tanto non baro, se mi blocca il sito si sentiranno le imprecazioni fin sul forum... ma non credo che accadrà...
:D:D:DD'altronde posso verificare subito se il sito è bloccato, sempre nell'account webmaster c'è la sezione delle pagine scansionate mensilmente, se vedo che si blocca cancello subito tutto...
**edit---------------------
che poi sono proprio un morto di sonno, nell'account webmaster c'è proprio una sezione che ti segnala eventuali pagine bloccate dal robots.txt, basta dare un'occhiata lì e si capisce subito dalle prime scansioni cosa succede...un giorno o l'altro con questa mia distrazione finirò sotto una macchina...
**
-
@444523 said:
Sì, esatto, più o meno così...
nel robots.txt, oltre ad altri comandi di non seguire file .php (il sito è interamente in html con rebuild giornalieri) ho immesso il comando di non indicizzare esattamente la cartella ~pincopalla_accountFacendo una verifica sulle cartelle, direttamente dal domino, es: www.miodomino.com/cibi_avariati è perfettamente raggiungibile. così come tutte le cartelle seguendo l'url che incomincio con il dominio...
la cartella ~pincopalla_account che sotto di sè duplica tutte le pagine è invece bloccata sempre dal test che si può fare nel mio account di Google...
Oh, possiamo sempre scommetterci un caffè... tanto non baro, se mi blocca il sito si sentiranno le imprecazioni fin sul forum... ma non credo che accadrà...
:D:D:DD'altronde posso verificare subito se il sito è bloccato, sempre nell'account webmaster c'è la sezione delle pagine scansionate mensilmente, se vedo che si blocca cancello subito tutto...
**edit---------------------
che poi sono proprio un morto di sonno, nell'account webmaster c'è proprio una sezione che ti segnala eventuali pagine bloccate dal robots.txt, basta dare un'occhiata lì e si capisce subito dalle prime scansioni cosa succede...un giorno o l'altro con questa mia distrazione finirò sotto una macchina...
**ho capito,
quindi tu non hai messo in pincopalla un "Disallow : *" ma un "disallow /nomecartella/"quindi se ci entra dal dominio, non può trovare la cartella (che è il dominio stesso), se ci entra dall'ip viene invece trovata e viene bloccata.
ok cosi funge
EDIT:
curiosità : hai capito come ha preso l'ip ha controllato eventuali interfacce webmail o admin linkate via ip?
-
@dsom said:
ho capito,
quindi tu non hai messo in pincopalla un "Disallow : *" ma un "disallow /nomecartella/"quindi se ci entra dal dominio, non può trovare la cartella (che è il dominio stesso), se ci entra dall'ip viene invece trovata e viene bloccata.
ok cosi funge
EDIT:
curiosità : hai capito come ha preso l'ip ha controllato eventuali interfacce webmail o admin linkate via ip?
Eh, dovrebbe funzionare, ma ho trovato un problema...
per funzionare sull'ip il robots.txt deve'essere a questo livello
ip/robots.txt
e non ip/nome_account/robots.txtHo cercato in Internet e alcuni server hanno proprio ip/robots.txt che è perfettamente visibile dall'esterno... io non riesco a renderlo visibile all'esterno, forse sbaglio posto...
azz... vediamo se qualcuno mi aiuta sul loro forum... a meno che qualche anima buona non sia già esperta qui...
:D:D:DPer l'ip trovato da Google dev'essere un'immagine che era collegata all'ip e non al dominio, quando ho fatto il trasferimento del sito l'ho ri-costruito tramite ip e poi aluni link ho dimenticato di modificarli... non capisco però come dall'immagine linkata all'ip abbia poi preso qualche migliaia di pagine...
-
@444523 said:
Eh, dovrebbe funzionare, ma ho trovato un problema...
per funzionare sull'ip il robots.txt deve'essere a questo livello
ip/robots.txt
e non ip/nome_account/robots.txtecco, io ci avevo pensato in realtà, ma mi son detto "se funziona, mi sbaglierò :D"
rimangono i suggerimenti di prima fondamentalmente
-
@444523 said:
A rigor di logica il dominio principale dovrebbe rimanere intatto, oppure per qualche logica particolare di googlebot mi rimuoverà dall'indice tutto il sito?
Scusate se mi intrometto ma se hai questo dubbio (se cancelli il sito dovrai aspettare un bel po prima di rivederlo ho letto da qualche parte almeno 6 mesi) perchè non fai una prova su una dir o su una singola pagina eliminadola, sempre tramite robot ma attraverso http://services.google.com/urlconsole/controller?cmd=reload&lastcmd=login
il servizio di G stesso?
Questo servizio ti consentirà di vedere (mi pare nelle 24h) il risultato.ciao,
nicola
-
@dsom said:
ecco, io ci avevo pensato in realtà, ma mi son detto "se funziona, mi sbaglierò :D"
rimangono i suggerimenti di prima fondamentalmenteSì adesso è inserito bene... ce l'ho fatta!
Il bello è che un utente abituale di linux ci avrebbe messo 30 secondi mentre si mangiava un pezzo di pizza al pomodoro, beveva un po' di cocacola e si guardava un film porno in contemporanea...io ci ho messo 1 ora a capire che il file robots.txt và inserito tramite ssh in var/www/html
ora funziona tutto, e anche i vari test tramite l'account di Google mi confermano che il dominio principale e relativi indirizzi sono liberi d'essere scansionati...
mentre ip/cartella_account ora è completamente bloccato impedendo la duplicazione del sito...Vabbe' ho imparato qualcosa... se non ci saranno sorprese nelle prossime scansioni... vedremo. Cmq sembra tutto ok...
-
@olanic said:
Scusate se mi intrometto ma se hai questo dubbio (se cancelli il sito dovrai aspettare un bel po prima di rivederlo ho letto da qualche parte almeno 6 mesi) perchè non fai una prova su una dir o su una singola pagina eliminadola, sempre tramite robot ma attraverso http://services.google.com/urlconsole/controller?cmd=reload&lastcmd=login
il servizio di G stesso?
Questo servizio ti consentirà di vedere (mi pare nelle 24h) il risultato.ciao,
nicolaGrazie Olanic per il tuo intervento...
tieni presente che anche fosse sbagliata la mia idea, Google non ti cancella tutto il sito di colpo...Gli strumenti webmaster nel tuo account di Google ti permettono di vedere già dalle prime scansioni se gli url "regolari" vengono bloccati... e sembrerebbe di no perchè puoi fare anche dei test in anticipo...
sicuramente (avendo la stessa paura tua) non farò la rimozione url... per quello eventualmente aspetto che le cose siano chiare al 100%...
-
Riprendendo questa discussione
http://www.giorgiotave.it/forum/posizionamento-nei-motori-di-ricerca/35235-pagine-duplicate-involontarie-errore-di-google.htmlmi sono fatto coraggio ed ho usato la sezione rimozione url/sito di Google.
Ho creato l'account ri-sottomesso il robots.txt del sito duplicato ip/cartella chiedendo a Google di rimuovere tutta la cartella fantasma dell'ip dove è collegato il dominio...Una cosa impressionante: le pagine duplicate/fantasma erano circa 1500... ed erano lì da quasi 2 mesi... sono sparite in 2 ore! Ho fatto diversi controlli, non ci sono più... in 2 ore tutto cancellato da Google.
In 2 ore... e chi si apsettava una velocità stratosferica simile...
sono rimasto davvero colpito!
o:o
-
Grazie 444523 per la tua testimonianza,
ho unito il nuovo thread a quello originale per non tenere aperti più topic che parlano della stessa problematica.
Ti ho inviato un pm per informarti dello spostamento.
.Stuart
-