Robots.txt ha bloccato URL inviata dalla Sitemap. Come sbloccarla?

guideitech

Robots.txt ha bloccato URL inviata dalla Sitemap. Come sbloccarla?

Salve a tutti. Ho da pochi giorni creato il file robots.txt per il mio sito web ma ho riscontrato un problema su Strumenti per i Webmaster di Google. Ho notato che è stato bloccato un URL e la causa è un blocco imposto dal robots.txt, ma io non ho intenzione di bloccare quel determinato URL. Potreste darmi una mano per risolvere il problema? Il mio robots è il seguente

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
 
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /

mentre l'URL bloccata è questa:```
guideitech.com/internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/

federico.sasso

ciao guideitech, benvenuto nel Forum GT

Visto così non sembra doverlo bloccare (ho controllato anche la sitemap per vedere se il sottodominio dell'url fosse corretto).
Potrebbe fare riferimento a una vecchia versione della sitemap.

Prova con "Visualizza come Google" dell'URL incriminato.

guideitech

Ciao, grazie per la disponibilità. Da "visualizza come Google" mi dà come errore "negata da robots.txt".
PS ieri ho cambiato plugin per gestire la sitemap, che ora ha un nome diverso rispetto alla precedente. Dovrei aggiornare anche il robots.txt oppure sa in automatico dove prendere la nuova sitemap? dovrei eliminare la preceente sitemap?

federico.sasso

@guideitech said:

PS ieri ho cambiato plugin per gestire la sitemap, che ora ha un nome diverso rispetto alla precedente. Dovrei aggiornare anche il robots.txt oppure sa in automatico dove prendere la nuova sitemap? dovrei eliminare la preceente sitemap?
Nel robots.txt puoi aggiungere l'URL della sitemap a beneficio degli altri motori di ricerca, ma Google sa già dove pescarla perché glielo dici tramite GWT.
In GWT elimina dalla lista la vecchia sitemap (io ho esaminato quella in /sitemap.xml, non so se sia la nuova o la vecchia) e aggiungi la nuova e inviala.
Ciao

guideitech

La nuova sitemap è la seguente: guideitech.com/sitemapindex.xml
Non c'è nessun modo per evitare che il robots blocchi quell'articolo?

federico.sasso

Il robots.txt mostrato non dovrebbe bloccare l'URL.
Prova a testare l'URL da GWT -> Url bloccati

Il sito impostato su GWT è nella versione con o senza www?

giorgiotave

Ciao guideitech e benvenuto sul forum gt

Dovrebbe essere correttamente bloccata quell'url dall'istruzione che hai dato qui:

Disallow: */feed

Se non vado errato, dovrebbe bloccare l'URL che hai indicato:

 guideitech.com/internet**/feed**ly-sostituto-valido-di-google-reader-che-esce-di-scena/

Se vuoi bloccare solo esclusivamente quell'URL usa questa istruzione

Disallow: */feed$

Con il $ chiedi ai motori di ricerca di terminare l'istruzione quindi non ti blocca tutto il resto.

Se invece vuoi lasciare com'è ma dare accesso specifico devi usare questa istruzione:


Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/
Disallow: */feed

Mentre Google da precedenza alle istruzioni a seconda della lunghezza del path della URL, tutti gli altri motori di ricerca danno precedenza all'ordine di lettura del Robots.txt partendo ovviamente dall'alto.

Li chiamano standard....:():

P.s. corretto il messaggio dopo la segnalazione di Federico Sasso che si può leggere subito dopo questo post.

federico.sasso

Giorgio,
ho letto la tua risposta e ho pensato... "è sbagliata"... poi l'ho riletta ed ho pensato "cavolo"...
La riga che blocca è secondo me quest'altra:

Disallow: */feed

con l'asterisco.
Il robots.txt l'avrò guardato 10 volte e m'era sfuggita!
Ti devo una birra

giorgiotave

Ciao Fede,
hai ragione! Ho fatto copia incolla del codice in modo errato, comunque si è quella con l'asterisco

Modifico il mio post in modo che se da non mandare in confusione nessuno.

Grazie della correzione

guideitech

Grazie per l'aiuto. Inserendo ```
Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/

. Quindi ogni volta che scrivo un articolo e nel titolo è presente la parola "feed" esso verrà bloccato dal robots.txt?

giorgiotave

Si

La cosa migliore sarebbe questa istruzione:

Disallow: */feed$

Prova togliendo l'Allow e vedi se te lo blocca

guideitech

Con l'istruzione che dici tu mi dà errore "non nel dominio". Lascerò il robots con l'allow di quell'url. Grazie per i consigli.

giorgiotave

Strano...Federico che ne pensi?

Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro

guideitech

@Giorgiotave said:

Strano...Federico che ne pensi?

Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro
Avevo sbagliato a scrivere qualcosa. Ora con ```
*Disallow: */feed$

federico.sasso

@Giorgiotave said:

Strano...Federico che ne pensi?
Intendi l'errore "non nel dominio"?
Non ho capito quale strumento di GWT lo segnala, e in seguito a che modifica esattamente.

Il motivo per cui avevo chiesto se usasse il profilo GWT con www o senza era per capire se per caso guideitech non usasse la versione senza www : sarebbe visto come un dominio diverso, obbediente a un robots.txt diverso.

Un po' di elementi:
Gli URL nella sitemap hanno tutte il www (e il sito stesso fa redirect su tale versione); il robots.txt non fa il redirect, ma si presenta apparentemente uguale.

Nota: i feed di guideitech mi sembra finiscano tutti con lo slash /, quindi la riga dovrebbe a mio parere essere:

Disallow: */feed/$

Ciao

[UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]

guideitech

ho omesso il www perché altrimenti non riuscivo ad inserire link. Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
In questo modo non dovrei avere più nessun problema? Perché quando non avevo il file robots.txt, "Strumenti per webmaster" di google mi segnalava che alcuni articoli avevano due url e ricercando questi articoli su google e cliccando su di essi, l'url non era quella classica bensì un'url che rimandava a feedburner.

giorgiotave

@Federico Sasso said:

[UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]

Ci ha fregati

@guideitech said:

Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
In questo modo non dovrei avere più nessun problema?

Perfetto, sono molto contento!