- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- Nuovo sito in pasto ai guru :)
-
Scusate se mi intrometto, ma credo che Cassiopea stia sbagliando nel suggerire il file robots.txt.
Dalle poche nozioni che ho io, per poter permettere ad uno spider/robot di scansionare tutti i file e le directory di un sito, all'interno del file robots.txt è necessario scrivere:
User-agent: *
Disallow:
Se sbaglio fatemelo sapere.
-
Prova a vedere qui:
http://www.motoricerca.info/robots.phtml
Comunque a logica disallow vuol dire disabilita. o sbaglio?
Quindi tutti gli spider non lo vedono.
-
Confermi ciò che ho scritto prima, leggi meglio l'articolo che mi hai linkato, riporta le seguenti scritte:
Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:
User-agent: *
Disallow:Comunque è meglio che sia una persona più competente di me a fare chiarezza,
in modo che nessuno degli utenti che legge questo topic venga tratto in errore.
-
E' giusto quello di cassiopea.
Disallow: /
Questo impedisce la scansione di tutti i filesDisallow:
Questo invece indica che non si vuole impedire nienteValerio Notarfrancesco
-
@cassiopea said:
Scusa perchè hai messo nel file robots?
User-agent: *
Disallow:
Così le pagine non vengono nemmeno guardate dai motori.
Come fanno a essere indicizzate?
Prima cosa che ho notato: mancano i title in tutti i link.
I link, non me ne intendo ma mi sembra siano tutti, tranne la prima pagina con la foto grande, in javascript purtroppo, quindi di difficlile indicizzazione, non so perchè vedo porzioni di javascript nelle ancore.
I metatag description, keyword e title delle pagine ci sono, ma forse magari dovresti allungare le description.Sei sicuro che Cassiopea dica il giusto?
Mi sembra che si stia facendo una gran confusione.
-
Hai ragione anche tu.
Quando dicevo "cassiopea ha ragione" mi riferivo a questo
User-agent: *
Allow: /.
Allow: /In effetti scrivere
User-agent: *
Disallow:
significa dire al motore di ricerca semplicemente che non si vuole bloccare niente;ma non gli stai neanche dicendo che può scansionare tutto però.
Noi siamo umani e capiamo, loro magari se non vedono il comando
Allow: /
non riescono a capire che possono procedere.Per non sbagliare io gli permetterei di passare per le mie pagine.
Valerio Notarfrancesco
-
Credo che siano impostazioni obsolete, ma ripeto "non sono un esperto".
Se tu ne sei sicuro al 100% e sai ciò che dici mi fido di te.
-
C'è parecchia confusione.
Allow è una invenzione di Google, che vari altri motori hanno copiato, e serve per fare delle eccezzioni, per esempio se volessi escludere tutte le immagini tranne gli avatar potrei scrivere:
User-agent: * Disallow: /images/ Allow: /images/avatars/
Nel caso in questione, far indicizzare tutto il sito, si può anche scrivere
User-agent: * Allow: /
ma è più corretto
User-agent: * Disallow:
Il primo non lo capiscono tutti, ma di default tutto può essere indicizzato quindi non trovando un disallow indicizzano tutto, il secondo lo comprendono tutti.
-
Che confusione in questo post. Posso dirlo?
Ora ho le idee un pò più chiare comunque.
Buona domenica a tutti!
Ciao, ciao!
-
Grazie per la precisazione. Almeno si è fatta un pò più di chiarezza.
-
Allora l'impostazione esatta è
User-agent: * Disallow: ```Dove l'* indica che tutti gli spider hanno accesso a tutte le pagine del sito (visto che nulla è stato disabilitato in Disallow) Per bloccare gli spider va utilizzato
User-agent: *
Disallow: /User-agent: Googlebot
Disallow: /User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /oppure
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:Quello che dice cassiopea ovvero
User-agent: *
Allow: /
-
Chiedo scusa ma non mi ero accorto dalla mail che c'erano state altre risposte e non avevo visto che Webmaster70 aveva gia ben spiegato la cosa.
Comunque due pareri sopratutto se concordi sono meglio di uno