Prima rispondo alle 3 domande:
Cosa intendi con il fatto che il disallow crea buchi nel passaggio del pagerank?
Il disallow crea "buchi" nel passaggio del PageRank perché questo valore fluisce tra le pagine attraverso i link: A linka B, quindi il valore del PR di A contribuisce, sommato a tutti gli altri link in ingresso, al calcolo del PR di B. Se Google non può accedere alla pagina A, non può sapere quali pagine essa linki; di conseguenza non sa dove far passare il valore che viene perso. Da qui il termine "buco" per indicare una url nella quale il PageRank entra ma non esce.
Se io aggiungo il Disallow ad una pagina che ha già pagerank, questa continua a passare page rank ai link contenuti?2. No, se blocchi a Google l'accesso ad una pagina, il motore di ricerca non la considera più: non fa calcoli basandosi su quello che conosceva prima del disallow.
Inoltre se questa pagina ha dei link esterni che la puntano, continua a ricevere page rank e a passarlo oppure non riceve page rank in quanto c'è il disallow che evita allo spider di entrare?3. Continua a ricevere PageRank. Ma, come già detto, non lo passa a nessuno.
Ci tengo a precisare che in tutta la discussione ho parlato solo di PR, ma in realtà la stessa cosa vale per tutte le valutazioni fatte da Google partendo dai link in ingresso (analisi dell'anchor text, calcoli sull'autorità della pagina, ecc).
Per quanto riguarda un'ipotesi di struttura, credo che il compromesso ideale possa essere fermare il grado di profondità alle provincie.
Dalle provincie, eventualmente, si potrà accedere alla divisioni per comuni, su pagine bloccate da robots.txt.
In questa maniera un'eventuale ricerca "programmatore java melzo" potrebbe restituire la pagina sui programmatori java della provincia di Milano, nella quale si può trovare anche un link alla scheda del comune bloccata via robots.txt.
Se comunque trovi altri portali che secondo te hanno esigenze simili, possiamo partire da un'analisi di questi e vedere come adattarla al tuo caso.
Purtroppo Google ha a che fare con risorse limitate e deve selezionare le pagine migliori da tutta Internet: è un vincolo con il quale anche i webmaster si devono scontrare per non veder degenerare lo spam.
Spero che la discussione continui sui binari della sincerità e del rispetto reciproco, visto che questo tema può interessare tanti proprietari di portali di medie dimensioni. Ogni proposta che rispetti questi canoni è benvenuta!