- Home
- Categorie
- Digital Marketing
- Google Search Console e Altri Strumenti
- Modifica robots.txt con wildcard
-
Modifica robots.txt con wildcard
Salve,
vorrei modificare il file robots.txt in modo che mi escluda tutte le pagine terminino con archive.html
Non sono molto sicuro dell'utilizzo delle wildcard con le url, quindi chiedo a chi può aiutarmi se mi può dire come posso fare
Questo è il robots.txt estratto dal Webmaster Tool
User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: vuvuvu.sito.com/feeds/posts/default?orderby=UPDATED
Grazie per il supporto
-
Un aiutino?
Grazie
-
Ciao ZombieKB,
nel tuo caso specifico devi usare questo:
Disallow: /*archive.html
Ciao
Enea
-
@overclokk said:
...
User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Disallow: /*archive.html Allow: / Sitemap: vuvuvu.sito.com/feeds/posts/default?orderby=UPDATED
Tipo così?
Thanx!
-
Ok.
Qual'è il motivo delle prime due righe che hai scritto?Ciao
Enea
-
Guarda...L'ho copiato di sana pianta dal webmaster tools
Non ti torna?
-
Così come sono scritte non hanno senso, quello è il bot di google per adsense e con il disallow senza barra dici semplicemente a quel bot che può scansionare le pagine del tuo sito (tutte), il fatto è che scritto così si usa mettere se prima blocchi qualche bot o tutti, per esempio:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Dice al bot di google di non scansionare ma il bot per adsense (che è sempre di google) può farlo.
A meno che tu non abbia asigenze particolari non ti serve, casomai inserisci all'inizio questo:
User-agent: * Allow: / Disallow: /search Disallow: /*archive.html
Ti ho anche inserito le altre due righe di codice così è pronto per essere copiato ed incollato
Ciao
Enea
-
Quindi mi stai dicendo che così com'era impostato mi stava limitando nel posizionamento sui vari motori di ricerca?
Zio Billy !!!
-
No, non ho mai detto questo, ho detto che avere quel comando e non averlo era la stessa cosa :D, quindi meglio avere meno codice possibile e file più leggeri.
Ciao
Enea
-
Ah...ok, mi stava venendo un crampo al cervello
Grazie 1000 !!!
Ciao!
-
Di nulla
Se hai altri problemi usa pure il forum
Ciao
Enea
-
In effetti avevo già aperto un thread (Sviluppo e Gestione siti --> web Scripting lato client --> Ottimizzazione caricamento script) ma forse l'ho farcito troppo...
Che dici?
Ciao!
-
Ciao Enea,
scusa ancora il disturbo...ma ho cercato qualche informazione su internet e non sono riuscito a farmi un'idea precisa:
la compilazione del robot.txt sostituisce la presenza dentro il codice della pagina del meta robot ad esempio <meta content='index,follow' name='robots'/> ?
Te lo chiedo perché ho notato che in una delle pagine che dovrebbero ora dovrebbero avere il disallow come da robot.txt, guardando le informazioni della pagina hanno invece un index,follow
grazie del chiarimento
-
Ciao ZombieKB,
in teoria il robots dovrebbe essere il primo file che il crawler legge, ad ogni modo che sia bloccata in un modo o nell'altro (sempre in teoria) non dovrebbe considerare quella pagina.Ciao
Enea
-
Ciao
Quindi posso rimuoverli tranquillamente? Non vorrei che mi creassero conflitti...
Grazie!
-
Prima di rimuoverli segui la procedura corretta
Ciao
Enea
-
...che sarebbe?
Thanx
-
Scusa ancora...mi sono accorto di una cosa curiosa, nel codice del template ho queste cose
Appena subito sotto l'apertura dell' <head> ho questo:
<b:if cond='data:blog.pageType == "archive"'> <meta content='noindex,noarchive' name='robots'/> </b:if>
poco più sotto questo:
<meta content='index,follow' name='robots'/>
E' esattamente quello che è specificato nel robots.txt giusto?
-
Il primo codice dice di non indicizzare e non archiviare il contenuto della pagina (hai presente la cache di google? Quella!)
Il secondo invece dice di indicizzare e seguire i link.A prescindere da ciò che hai nel robots una delle due righe va eliminata, tieni quella che è più utile in quel caso specifico.
Ciao
Enea
-
Grazie 1000 Enea
Prezioso come sempre!
Ciao