Modifica robots.txt con wildcard

zombiekb

Modifica robots.txt con wildcard

Salve,

vorrei modificare il file robots.txt in modo che mi escluda tutte le pagine terminino con archive.html

Non sono molto sicuro dell'utilizzo delle wildcard con le url, quindi chiedo a chi può aiutarmi se mi può dire come posso fare

Questo è il robots.txt estratto dal Webmaster Tool

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: vuvuvu.sito.com/feeds/posts/default?orderby=UPDATED

Grazie per il supporto

zombiekb

Un aiutino?

Grazie

overclokk

Ciao ZombieKB,

nel tuo caso specifico devi usare questo:

Disallow: /*archive.html

Ciao
Enea

zombiekb

@overclokk said:

...

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /*archive.html

Allow: /  Sitemap: vuvuvu.sito.com/feeds/posts/default?orderby=UPDATED

Tipo così?

Thanx!

overclokk

Ok.
Qual'è il motivo delle prime due righe che hai scritto?

Ciao
Enea

zombiekb

Guarda...L'ho copiato di sana pianta dal webmaster tools

Non ti torna?

overclokk

Così come sono scritte non hanno senso, quello è il bot di google per adsense e con il disallow senza barra dici semplicemente a quel bot che può scansionare le pagine del tuo sito (tutte), il fatto è che scritto così si usa mettere se prima blocchi qualche bot o tutti, per esempio:


User-agent: Googlebot 
Disallow: /  
User-agent: Mediapartners-Google 
Disallow:

Dice al bot di google di non scansionare ma il bot per adsense (che è sempre di google) può farlo.

A meno che tu non abbia asigenze particolari non ti serve, casomai inserisci all'inizio questo:


User-agent: * 
Allow: /
Disallow: /search 
Disallow: /*archive.html

Ti ho anche inserito le altre due righe di codice così è pronto per essere copiato ed incollato

Ciao
Enea

zombiekb

Quindi mi stai dicendo che così com'era impostato mi stava limitando nel posizionamento sui vari motori di ricerca?

Zio Billy !!!

overclokk

No, non ho mai detto questo, ho detto che avere quel comando e non averlo era la stessa cosa :D, quindi meglio avere meno codice possibile e file più leggeri.

Ciao
Enea

zombiekb

Ah...ok, mi stava venendo un crampo al cervello

Grazie 1000 !!!

Ciao!

overclokk

Di nulla

Se hai altri problemi usa pure il forum

Ciao
Enea

zombiekb

In effetti avevo già aperto un thread (Sviluppo e Gestione siti --> web Scripting lato client --> Ottimizzazione caricamento script) ma forse l'ho farcito troppo...

Che dici?

Ciao!

zombiekb

Ciao Enea,

scusa ancora il disturbo...ma ho cercato qualche informazione su internet e non sono riuscito a farmi un'idea precisa:

la compilazione del robot.txt sostituisce la presenza dentro il codice della pagina del meta robot ad esempio <meta content='index,follow' name='robots'/> ?

Te lo chiedo perché ho notato che in una delle pagine che dovrebbero ora dovrebbero avere il disallow come da robot.txt, guardando le informazioni della pagina hanno invece un index,follow

grazie del chiarimento

overclokk

Ciao ZombieKB,
in teoria il robots dovrebbe essere il primo file che il crawler legge, ad ogni modo che sia bloccata in un modo o nell'altro (sempre in teoria) non dovrebbe considerare quella pagina.

Ciao
Enea

zombiekb

Ciao

Quindi posso rimuoverli tranquillamente? Non vorrei che mi creassero conflitti...

Grazie!

overclokk

Prima di rimuoverli segui la procedura corretta

Ciao
Enea

zombiekb

...che sarebbe?

Thanx

zombiekb

Scusa ancora...mi sono accorto di una cosa curiosa, nel codice del template ho queste cose

Appena subito sotto l'apertura dell' <head> ho questo:

<b:if cond='data:blog.pageType == &quot;archive&quot;'>
<meta content='noindex,noarchive' name='robots'/>
</b:if>

poco più sotto questo:

<meta content='index,follow' name='robots'/>

E' esattamente quello che è specificato nel robots.txt giusto?

overclokk

Il primo codice dice di non indicizzare e non archiviare il contenuto della pagina (hai presente la cache di google? Quella!)
Il secondo invece dice di indicizzare e seguire i link.

A prescindere da ciò che hai nel robots una delle due righe va eliminata, tieni quella che è più utile in quel caso specifico.

Ciao
Enea

zombiekb

Grazie 1000 Enea

Prezioso come sempre!

Ciao