Salve a tutti !
Mi chiamo Michele e questo è il mio primo post su GT .
Mi scuso anticipatamente per la lunghezza senz?altro eccessiva del mio redatto, ma preferisco fornirvi una dettagliata spiegazione in modo tale che possiate avere un quadro pressoché preciso in merito alla situazione.
Spero possiate aiutarmi, anche perché da una settimana , tempestato dalle piu? svariate informazioni o tutorials a volte in contraddizione fra loro stessi, comincio a non capirci più niente !
Premetto di non essere un esperto in gestione di siti web, ma accade una cosa strana , e nella "miniera" d?informazioni dell?internetto non trovo spiegazione o delucidazione alcuna che sia nettamente chiara :
Ho un sito : www.miosito.com ( classico sito d?esempio 
Il sito è hostato da Aruba.it
Utilizzo pagine dinamiche php
Ho anche un account google e di conseguenza fruisco quotidianamente degli "strumenti per i webmaster"
Ho infine la possibilità di controllare le statistiche di accesso ( inclusi spiders e grabbers )
Il sito è online tradotto anche in inglese , ho preferito optare per le sottodir anziche? il terzo livello, mi pareva piu? consono , quindi :
www.miosito.com/english/ ( ovviamente la subdir ha il suo bel index.php )
Bene, metto online il sito unitamente alla inclusione del sitemap ( strumenti per i webmaster di google ) che include le info sia sulla root ( www.miosito.com/index.php e cosi? via per tutti gli altri files php presenti ) sia sulla directory "english" ( quindi www.miosito.com/english/index.php e cosi? via per tutti gli altri files php presenti )
Sia chiaro, un solo sitemp.xml che include TUTTI i files e le directory è stato immesso via ftp unicamente sulla root ( [URL="ftp://ftp.miosito.com/"]ftp.miosito.com/ )
Non faccio uso del file robots.txt anche perche? non ho alcuna esclusione da segnalare ai motori ( e comunque molte informazioni "discrepanti" mirano proprio a diverse "interpretazioni" in merito all?utilizzo di questo file )
Comunque qualora volessi "privatizzare" una cartella utilizzerei .htaccess e .htpasswd , ma in questo sito non ne ho la necessità .
Cosa dice Google ? :
" Utilizza il file robots.txt nel tuo server web. Tale file indica ai crawler le directory delle quali è possibile eseguire la scansione. Assicurati che il file sia aggiornato, in modo da non bloccare involontariamente il crawler Googlebot. Per ulteriori informazioni sulle modalità di controllo dei programmi automatizzati (robot) quando questi visitano il tuo sito, consulta la pagina http://www.robotstxt.org/wc/faq.html. Puoi eseguire un test con il file robots.txt per assicurarti che esso venga utilizzato correttamente insieme allo strumento di analisi robots.txt disponibile negli Strumenti per i webmaster di Google."
Sembrerebbe anche alquanto facile ed intuitivo :
basterebbero tre righe per dire al motore : hai il permesso di scansionare tutte le directory ad eccezione della directory "cgi-bin" che invece non va scansionata :
User-Agent: *
Allow: /
Disallow: /cgi-bin
Io lo farei volentieri, immetterei anche ora un bel robots.txt che permetta la scansione su TUTTE le dir o subdir come "dir" si voglia ( veramente a me basterebbe solo la directory "english" ) ma?. Il terrore mi assale :
Una marea di siti indica invece il file robots.txt come uno strumento si utile, ma pericolosissimo in caso di errore , in pratica da usare con cautela e SOLO per ESCLUSIONI . ad esempio vedi la pagina http://www.motoricerca.info/robots.phtml:
in questo sito specifico per esempio si sostiene che :
" Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.
Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi."


mah...
Insomma leggendo questo redatto mi tocca fare marcia in dietro in quanto io NON VOGLIO assolutamente nascondere NULLA al motore e nel contempo ho paura di escludere inavvertitamente cio? che invece deve essere pubblicato.
Che fare ?
Ma torniamo al mio sito :
Altro che 15 giorni !! dopo soli 4 giorni era bello che indicizzato , ma?
? ma solo la root , la parte in inglese è per google INESISTENTE.
Quotidianamente viene a farmi visita "Googlebot 2.1" dal giorno che ho mandato online il sito unitamente alla spedizione del mio sitemap ,
Googlebot 2.1 entra, controlla, gironzola anche piu? volte , MA SEMPRE E SOLO nella root ( www.miosito.com/file1.phpwww.miosito.com/file2.php etc etc . )
Ho pensato allora di mandare ( sempre negli strumenti per i webmaster ) un bel sitemap.xml specifico per la dir "english" e contenuto all?interno della stessa dir , l?ho fatto e nella lista dei siti in gestione , appare un "nuovo" sito :
www.miosito.com/english/ ( validato e con un sitemap attivo )
da quel giorno Googlebot 2.1 fa una "toccata e fuga" nella dir "english" entra in un lampo e se ne va ( non controlla neppure i files in essa contenuti )
non solo , nel riepilogo degli strumenti per i webmaster dopo 20 giorni nella gestione di www.miosito.com/english/ google mi scrive :
( TRIANGOLO CON PUNTO ESCLAMATIVO ) Stato indicizzazione:
Nessuna pagina del tuo sito è al momento inclusa nell'indice di Google
Un vero paradosso, anche perche? se e? vero che per il motore contanto i links alla tua pagina la parte in Inglese sarebbe dovuta essere indicizzata in modo "primario" visto che decine di motori e directory europee linkano proprio sul mio sito in Inglese.
Non so piu? che fare o pensare. 
Siete la mia ultima spiaggia.
Vi abbraccio e vi mando i miei piu? sinceri complimenti in merito al lavoro che quotidianamente svolgete ed ai sempre validi consigli che elargite a raffica.
Michele 