Nuovo sito in pasto ai guru :)

zx81

Scusate se mi intrometto, ma credo che Cassiopea stia sbagliando nel suggerire il file robots.txt.
Dalle poche nozioni che ho io, per poter permettere ad uno spider/robot di scansionare tutti i file e le directory di un sito, all'interno del file robots.txt è necessario scrivere:
User-agent: *
Disallow:
Se sbaglio fatemelo sapere.

cassiopea

Prova a vedere qui:
http://www.motoricerca.info/robots.phtml
Comunque a logica disallow vuol dire disabilita. o sbaglio?
Quindi tutti gli spider non lo vedono.

zx81

Confermi ciò che ho scritto prima, leggi meglio l'articolo che mi hai linkato, riporta le seguenti scritte:

Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:
User-agent: *
Disallow:

Comunque è meglio che sia una persona più competente di me a fare chiarezza,
in modo che nessuno degli utenti che legge questo topic venga tratto in errore.

vnotarfrancesco

E' giusto quello di cassiopea.

Disallow: /
Questo impedisce la scansione di tutti i files

Disallow:
Questo invece indica che non si vuole impedire niente

Valerio Notarfrancesco

zx81

@cassiopea said:

Scusa perchè hai messo nel file robots?
User-agent: *
Disallow:
Così le pagine non vengono nemmeno guardate dai motori.
Come fanno a essere indicizzate?
Prima cosa che ho notato: mancano i title in tutti i link.
I link, non me ne intendo ma mi sembra siano tutti, tranne la prima pagina con la foto grande, in javascript purtroppo, quindi di difficlile indicizzazione, non so perchè vedo porzioni di javascript nelle ancore.
I metatag description, keyword e title delle pagine ci sono, ma forse magari dovresti allungare le description.

Sei sicuro che Cassiopea dica il giusto?
Mi sembra che si stia facendo una gran confusione.

vnotarfrancesco

Hai ragione anche tu.

Quando dicevo "cassiopea ha ragione" mi riferivo a questo

User-agent: *
Allow: /.
Allow: /

In effetti scrivere

User-agent: *
Disallow:
significa dire al motore di ricerca semplicemente che non si vuole bloccare niente;

ma non gli stai neanche dicendo che può scansionare tutto però.

Noi siamo umani e capiamo, loro magari se non vedono il comando

Allow: /
non riescono a capire che possono procedere.

Per non sbagliare io gli permetterei di passare per le mie pagine.

Valerio Notarfrancesco

zx81

Credo che siano impostazioni obsolete, ma ripeto "non sono un esperto".
Se tu ne sei sicuro al 100% e sai ciò che dici mi fido di te.

webmaster70

C'è parecchia confusione.

Allow è una invenzione di Google, che vari altri motori hanno copiato, e serve per fare delle eccezzioni, per esempio se volessi escludere tutte le immagini tranne gli avatar potrei scrivere:


User-agent: *
Disallow: /images/
Allow: /images/avatars/

Nel caso in questione, far indicizzare tutto il sito, si può anche scrivere


User-agent: *
Allow: /

ma è più corretto


User-agent: *
Disallow:

Il primo non lo capiscono tutti, ma di default tutto può essere indicizzato quindi non trovando un disallow indicizzano tutto, il secondo lo comprendono tutti.

cassiopea

Che confusione in questo post. Posso dirlo?
Ora ho le idee un pò più chiare comunque.
Buona domenica a tutti!
Ciao, ciao!

zx81

Grazie per la precisazione. Almeno si è fatta un pò più di chiarezza.

yeswebcan

Allora l'impostazione esatta è

User-agent: *
Disallow:
```Dove l'* indica che tutti gli spider   hanno accesso a tutte le pagine  del  sito (visto che nulla è stato disabilitato in Disallow)


Per bloccare gli spider va utilizzato

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: /

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

oppure

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:



Quello che dice cassiopea ovvero

User-agent: *
Allow: /

yeswebcan

Chiedo scusa ma non mi ero accorto dalla mail che c'erano state altre risposte e non avevo visto che Webmaster70 aveva gia ben spiegato la cosa.
Comunque due pareri sopratutto se concordi sono meglio di uno