• User Attivo

    Robots.txt

    Posseggo un sito e vorrei creare un file robots.txt per migliorare l'indicizzazione di google, ma alcune directory vorrei che non fossero viste.
    Devo mettere "Disallow" per la directory da non mostrare al motore di ricerca, ma se qualche malintenzionato apre il file robots.txt presente nel sito vede le directory che io cerco di mascherare. Come posso fare per nascondere il tutto senza evitare che google mi eviti ?:x


  • User Attivo

    Non hai la possibilità di proteggere queste pagine in un modo un po' più sicuro, ad esempio tramite password?

    <meta name="robots" content="noindex,nofollow"> comunque potrebbe esserti utile.


  • User

    ma se qualche malintenzionato apre il file robots.txt presente nel sito vede le directory che io cerco di mascherare

    e allora?


  • User Attivo

    Credo si tratti di directory che lui vuole proteggere, perchè magari contengono dei files riservati ad utenti registrato o non so che altro...

    oppure non ci ho capito nulla 🙂


  • Super User

    Ciao gongo,

    Posseggo un sito e vorrei creare un file robots.txt per migliorare l'indicizzazione di googleUn robots.txt nella root del tuo sito non "migliora" l'indicizzazione, al massimo la "disciplina" 🙂

    In ogni caso ti consiglio di metterlo comunque il robots.txt, anche se vuoto. Eviterà che gli spider, che cercano questo file di default, ricevano un errore 404.

    ma alcune directory vorrei che non fossero viste.
    Devo mettere "Disallow" per la directory da non mostrare al motore di ricercaEsattamente. I motori di ricerca più importanti aderiscono al Robots Exclusion Standard, ma questo file non impedisce che il motore venga a conoscenza della risorsa protetta. Semplicemente ne impedisce l'archiviazione.

    ma se qualche malintenzionato apre il file robots.txt presente nel sito vede le directory che io cerco di mascherare.Vero. Ma il robots.txt non serve (e non è mai servito) a proteggere con sicurezza dati "sensibili". E' ad uso e consumo degli user agent.

    Come posso fare per nascondere il tutto senza evitare che google mi eviti ?Google non ti "evita" se proteggi dall'indicizzazione directory e file non utili per l'utente. A voler fare i precisi Google non ti "evita" neanche se nel tuo robots.txt scrivi questo:

    
    User-agent: *
    Disallow: /
    ```Quindi:
    * o fai come fanno (facevano?) webmasterworld.com o del.icio.us ossia **cloaking del robots.txt** (agli spider un robots.txt, agli utenti un altro.... ma te lo sconsiglio se non fai webmasterworld o del.icio.us di cognome)
    * oppure fai le cose per bene e proteggi con **htaccess** (se sei su Apache) o con altro blocco lato server le directory che contengono dati privati..Stuart

  • User Attivo

    e directory sono invisibili all'utente normale e inacessibili se non tramite password, ma se io le metto nel file robots.txt e un utente qualsiasi lo apre scopre le dir che io voglio nascondere.

    Scritto da "Stuart"
    Google non ti "evita" se proteggi dall'indicizzazione directory e file non utili per l'utente. A voler fare i precisi Google non ti "evita" neanche se nel tuo robots.txt scrivi questo:

    Codice:
    User-agent: *
    

    Disallow: /

    allora se metto la stringa sopra google mi indicizza lo stesso il sito ? Se così proteggo le dir nascoste.


  • Super User

    @"gongo" said:

    allora se metto la stringa sopra google mi indicizza lo stesso il sito ?

    Road Back. Non mi sono spiegato (colpa mia).

    L'istruzione DISALLOW che metti nel robots.txt, che può riguardare l'intera root del sito, una o più directory e/o uno o più file, dà l'istruzione allo Spider (che di default controlla l'esistenza di questo file) di NON scaricare il contenuto, ossia non indicizzare, del file, o delle directory.

    Lo spider tuttavia non "evita" il sito perchè ci arriva tramite link. Ti sarà già capitato di vedere nelle pagine dei risultati di Google dei link formati semplicemente da URL, senza snippet e senza ulteriori riferimenti (senza il link "Copia Cache").

    Ecco, quelli sono Url di file o directory protetti da robots.txt, ma di cui il motore è a conoscenza. Lo standard è perfettamente rispettato: non ha scaricato il contenuto di file e directory.


    @"gongo" said:

    e directory sono invisibili all'utente normale e inacessibili se non tramite password, ma se io le metto nel file robots.txt e un utente qualsiasi lo apre scopre le dir che io voglio nascondere.

    E che ti importa? 🙂

    Se è un utente "normale" non gli cambia la vita sapere che hai una directory che si chiama "/film_divx_backup/" (nome a caso), tanto non ci può entrare.
    Se l'utente è un hacker, o un serio malintenzionato, stai pur certo che utilizzerà mezzi più sofisticati della semplice lettura del robots.txt, per bucarti il server ed entrare dove vuole.

    Cosa che, ovviamente, non ti auguro 🙂

    .Stuart