Robots.txt ha bloccato URL inviata dalla Sitemap. Come sbloccarla?

giorgiotave

Ciao guideitech e benvenuto sul forum gt

Dovrebbe essere correttamente bloccata quell'url dall'istruzione che hai dato qui:

Disallow: */feed

Se non vado errato, dovrebbe bloccare l'URL che hai indicato:

 guideitech.com/internet**/feed**ly-sostituto-valido-di-google-reader-che-esce-di-scena/

Se vuoi bloccare solo esclusivamente quell'URL usa questa istruzione

Disallow: */feed$

Con il $ chiedi ai motori di ricerca di terminare l'istruzione quindi non ti blocca tutto il resto.

Se invece vuoi lasciare com'è ma dare accesso specifico devi usare questa istruzione:


Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/
Disallow: */feed

Mentre Google da precedenza alle istruzioni a seconda della lunghezza del path della URL, tutti gli altri motori di ricerca danno precedenza all'ordine di lettura del Robots.txt partendo ovviamente dall'alto.

Li chiamano standard....:():

P.s. corretto il messaggio dopo la segnalazione di Federico Sasso che si può leggere subito dopo questo post.

federico.sasso

Giorgio,
ho letto la tua risposta e ho pensato... "è sbagliata"... poi l'ho riletta ed ho pensato "cavolo"...
La riga che blocca è secondo me quest'altra:

Disallow: */feed

con l'asterisco.
Il robots.txt l'avrò guardato 10 volte e m'era sfuggita!
Ti devo una birra

giorgiotave

Ciao Fede,
hai ragione! Ho fatto copia incolla del codice in modo errato, comunque si è quella con l'asterisco

Modifico il mio post in modo che se da non mandare in confusione nessuno.

Grazie della correzione

guideitech

Grazie per l'aiuto. Inserendo ```
Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/

. Quindi ogni volta che scrivo un articolo e nel titolo è presente la parola "feed" esso verrà bloccato dal robots.txt?

giorgiotave

Si

La cosa migliore sarebbe questa istruzione:

Disallow: */feed$

Prova togliendo l'Allow e vedi se te lo blocca

guideitech

Con l'istruzione che dici tu mi dà errore "non nel dominio". Lascerò il robots con l'allow di quell'url. Grazie per i consigli.

giorgiotave

Strano...Federico che ne pensi?

Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro

guideitech

@Giorgiotave said:

Strano...Federico che ne pensi?

Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro
Avevo sbagliato a scrivere qualcosa. Ora con ```
*Disallow: */feed$

federico.sasso

@Giorgiotave said:

Strano...Federico che ne pensi?
Intendi l'errore "non nel dominio"?
Non ho capito quale strumento di GWT lo segnala, e in seguito a che modifica esattamente.

Il motivo per cui avevo chiesto se usasse il profilo GWT con www o senza era per capire se per caso guideitech non usasse la versione senza www : sarebbe visto come un dominio diverso, obbediente a un robots.txt diverso.

Un po' di elementi:
Gli URL nella sitemap hanno tutte il www (e il sito stesso fa redirect su tale versione); il robots.txt non fa il redirect, ma si presenta apparentemente uguale.

Nota: i feed di guideitech mi sembra finiscano tutti con lo slash /, quindi la riga dovrebbe a mio parere essere:

Disallow: */feed/$

Ciao

[UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]

guideitech

ho omesso il www perché altrimenti non riuscivo ad inserire link. Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
In questo modo non dovrei avere più nessun problema? Perché quando non avevo il file robots.txt, "Strumenti per webmaster" di google mi segnalava che alcuni articoli avevano due url e ricercando questi articoli su google e cliccando su di essi, l'url non era quella classica bensì un'url che rimandava a feedburner.

giorgiotave

@Federico Sasso said:

[UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]

Ci ha fregati

@guideitech said:

Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
In questo modo non dovrei avere più nessun problema?

Perfetto, sono molto contento!