- Home
- Categorie
- Digital Marketing
- Posizionamento Nei Motori di Ricerca
- Robots.txt ha bloccato URL inviata dalla Sitemap. Come sbloccarla?
-
Robots.txt ha bloccato URL inviata dalla Sitemap. Come sbloccarla?
Salve a tutti. Ho da pochi giorni creato il file robots.txt per il mio sito web ma ho riscontrato un problema su Strumenti per i Webmaster di Google. Ho notato che è stato bloccato un URL e la causa è un blocco imposto dal robots.txt, ma io non ho intenzione di bloccare quel determinato URL. Potreste darmi una mano per risolvere il problema? Il mio robots è il seguente
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: */trackback Disallow: */feed Disallow: */comments # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # Internet Archiver Wayback Machine User-agent: ia_archiver Disallow: / # digg mirror User-agent: duggmirror Disallow: /
mentre l'URL bloccata è questa:```
guideitech.com/internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/
-
ciao guideitech, benvenuto nel Forum GT
Visto così non sembra doverlo bloccare (ho controllato anche la sitemap per vedere se il sottodominio dell'url fosse corretto).
Potrebbe fare riferimento a una vecchia versione della sitemap.Prova con "Visualizza come Google" dell'URL incriminato.
-
Ciao, grazie per la disponibilità. Da "visualizza come Google" mi dà come errore "negata da robots.txt".
PS ieri ho cambiato plugin per gestire la sitemap, che ora ha un nome diverso rispetto alla precedente. Dovrei aggiornare anche il robots.txt oppure sa in automatico dove prendere la nuova sitemap? dovrei eliminare la preceente sitemap?
-
@guideitech said:
PS ieri ho cambiato plugin per gestire la sitemap, che ora ha un nome diverso rispetto alla precedente. Dovrei aggiornare anche il robots.txt oppure sa in automatico dove prendere la nuova sitemap? dovrei eliminare la preceente sitemap?
Nel robots.txt puoi aggiungere l'URL della sitemap a beneficio degli altri motori di ricerca, ma Google sa già dove pescarla perché glielo dici tramite GWT.
In GWT elimina dalla lista la vecchia sitemap (io ho esaminato quella in /sitemap.xml, non so se sia la nuova o la vecchia) e aggiungi la nuova e inviala.
Ciao
-
La nuova sitemap è la seguente: guideitech.com/sitemapindex.xml
Non c'è nessun modo per evitare che il robots blocchi quell'articolo?
-
Il robots.txt mostrato non dovrebbe bloccare l'URL.
Prova a testare l'URL da GWT -> Url bloccatiIl sito impostato su GWT è nella versione con o senza www?
-
Ciao guideitech e benvenuto sul forum gt
Dovrebbe essere correttamente bloccata quell'url dall'istruzione che hai dato qui:
Disallow: */feed
Se non vado errato, dovrebbe bloccare l'URL che hai indicato:
guideitech.com/internet**/feed**ly-sostituto-valido-di-google-reader-che-esce-di-scena/
Se vuoi bloccare solo esclusivamente quell'URL usa questa istruzione
Disallow: */feed$
Con il $ chiedi ai motori di ricerca di terminare l'istruzione quindi non ti blocca tutto il resto.
Se invece vuoi lasciare com'è ma dare accesso specifico devi usare questa istruzione:
Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/ Disallow: */feed
Mentre Google da precedenza alle istruzioni a seconda della lunghezza del path della URL, tutti gli altri motori di ricerca danno precedenza all'ordine di lettura del Robots.txt partendo ovviamente dall'alto.
Li chiamano standard....:():
P.s. corretto il messaggio dopo la segnalazione di Federico Sasso che si può leggere subito dopo questo post.
-
Giorgio,
ho letto la tua risposta e ho pensato... "è sbagliata"... poi l'ho riletta ed ho pensato "cavolo"...
La riga che blocca è secondo me quest'altra:Disallow: */feed
con l'asterisco.
Il robots.txt l'avrò guardato 10 volte e m'era sfuggita!
Ti devo una birra
-
Ciao Fede,
hai ragione! Ho fatto copia incolla del codice in modo errato, comunque si è quella con l'asteriscoModifico il mio post in modo che se da non mandare in confusione nessuno.
Grazie della correzione
-
Grazie per l'aiuto. Inserendo ```
Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/. Quindi ogni volta che scrivo un articolo e nel titolo è presente la parola "feed" esso verrà bloccato dal robots.txt?
-
Si
La cosa migliore sarebbe questa istruzione:
Disallow: */feed$
Prova togliendo l'Allow e vedi se te lo blocca
-
Con l'istruzione che dici tu mi dà errore "non nel dominio". Lascerò il robots con l'allow di quell'url. Grazie per i consigli.
-
Strano...Federico che ne pensi?
Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro
-
@Giorgiotave said:
Strano...Federico che ne pensi?
Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro
Avevo sbagliato a scrivere qualcosa. Ora con ```
*Disallow: */feed$
-
@Giorgiotave said:
Strano...Federico che ne pensi?
Intendi l'errore "non nel dominio"?
Non ho capito quale strumento di GWT lo segnala, e in seguito a che modifica esattamente.Il motivo per cui avevo chiesto se usasse il profilo GWT con www o senza era per capire se per caso guideitech non usasse la versione senza www : sarebbe visto come un dominio diverso, obbediente a un robots.txt diverso.
Un po' di elementi:
Gli URL nella sitemap hanno tutte il www (e il sito stesso fa redirect su tale versione); il robots.txt non fa il redirect, ma si presenta apparentemente uguale.Nota: i feed di guideitech mi sembra finiscano tutti con lo slash /, quindi la riga dovrebbe a mio parere essere:
Disallow: */feed/$
Ciao
[UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]
-
ho omesso il www perché altrimenti non riuscivo ad inserire link. Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
In questo modo non dovrei avere più nessun problema? Perché quando non avevo il file robots.txt, "Strumenti per webmaster" di google mi segnalava che alcuni articoli avevano due url e ricercando questi articoli su google e cliccando su di essi, l'url non era quella classica bensì un'url che rimandava a feedburner.
-
@Federico Sasso said:
[UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]
Ci ha fregati
@guideitech said:
Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
In questo modo non dovrei avere più nessun problema?Perfetto, sono molto contento!