• User

    Scusate se mi intrometto, ma credo che Cassiopea stia sbagliando nel suggerire il file robots.txt.
    Dalle poche nozioni che ho io, per poter permettere ad uno spider/robot di scansionare tutti i file e le directory di un sito, all'interno del file robots.txt è necessario scrivere:
    User-agent: *
    Disallow:
    Se sbaglio fatemelo sapere.


  • Super User

    Prova a vedere qui:
    http://www.motoricerca.info/robots.phtml
    Comunque a logica disallow vuol dire disabilita. o sbaglio?
    Quindi tutti gli spider non lo vedono.


  • User

    Confermi ciò che ho scritto prima, leggi meglio l'articolo che mi hai linkato, riporta le seguenti scritte:

    Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:
    User-agent: *
    Disallow:

    Comunque è meglio che sia una persona più competente di me a fare chiarezza,
    in modo che nessuno degli utenti che legge questo topic venga tratto in errore.


  • ModSenior

    E' giusto quello di cassiopea.

    Disallow: /
    Questo impedisce la scansione di tutti i files

    Disallow:
    Questo invece indica che non si vuole impedire niente

    Valerio Notarfrancesco


  • User

    @cassiopea said:

    Scusa perchè hai messo nel file robots?
    User-agent: *
    Disallow:
    Così le pagine non vengono nemmeno guardate dai motori.
    Come fanno a essere indicizzate?
    Prima cosa che ho notato: mancano i title in tutti i link.
    I link, non me ne intendo ma mi sembra siano tutti, tranne la prima pagina con la foto grande, in javascript purtroppo, quindi di difficlile indicizzazione, non so perchè vedo porzioni di javascript nelle ancore.
    I metatag description, keyword e title delle pagine ci sono, ma forse magari dovresti allungare le description.

    Sei sicuro che Cassiopea dica il giusto?
    Mi sembra che si stia facendo una gran confusione.


  • ModSenior

    Hai ragione anche tu.

    Quando dicevo "cassiopea ha ragione" mi riferivo a questo

    User-agent: *
    Allow: /.
    Allow: /

    In effetti scrivere

    User-agent: *
    Disallow:
    significa dire al motore di ricerca semplicemente che non si vuole bloccare niente;

    ma non gli stai neanche dicendo che può scansionare tutto però.

    Noi siamo umani e capiamo, loro magari se non vedono il comando

    Allow: /
    non riescono a capire che possono procedere.

    Per non sbagliare io gli permetterei di passare per le mie pagine.

    Valerio Notarfrancesco


  • User

    Credo che siano impostazioni obsolete, ma ripeto "non sono un esperto".
    Se tu ne sei sicuro al 100% e sai ciò che dici mi fido di te.


  • Super User

    C'è parecchia confusione.

    Allow è una invenzione di Google, che vari altri motori hanno copiato, e serve per fare delle eccezzioni, per esempio se volessi escludere tutte le immagini tranne gli avatar potrei scrivere:

    
    User-agent: *
    Disallow: /images/
    Allow: /images/avatars/
    
    

    Nel caso in questione, far indicizzare tutto il sito, si può anche scrivere

    
    User-agent: *
    Allow: /
    
    

    ma è più corretto

    
    User-agent: *
    Disallow:
    
    

    Il primo non lo capiscono tutti, ma di default tutto può essere indicizzato quindi non trovando un disallow indicizzano tutto, il secondo lo comprendono tutti.


  • Super User

    Che confusione in questo post. Posso dirlo?
    Ora ho le idee un pò più chiare comunque.
    Buona domenica a tutti!
    Ciao, ciao!


  • User

    Grazie per la precisazione. Almeno si è fatta un pò più di chiarezza.


  • User Attivo

    Allora l'impostazione esatta è

    User-agent: *
    Disallow:
    ```Dove l'* indica che tutti gli spider   hanno accesso a tutte le pagine  del  sito (visto che nulla è stato disabilitato in Disallow)
    
    
    Per bloccare gli spider va utilizzato
    

    User-agent: *
    Disallow: /

     
    
    

    User-agent: Googlebot
    Disallow: /

     
    
    

    User-agent: *
    Disallow: /
    User-agent: Googlebot
    Allow: /

    oppure

    User-agent: *
    Disallow: /
    User-agent: Googlebot
    Disallow:

    
    
    Quello che dice cassiopea ovvero
    

    User-agent: *
    Allow: /


  • User Attivo

    Chiedo scusa ma non mi ero accorto dalla mail che c'erano state altre risposte e non avevo visto che Webmaster70 aveva gia ben spiegato la cosa.
    Comunque due pareri sopratutto se concordi sono meglio di uno 😉