• User Newbie

    Google Search Console - Robots.txt e filtri in disallow

    Ciao a tutti,

    Sto riscontrando un innalzamento anomalo delle pagine indicizzate sul sito di un mio cliente su Google Search Console e vorrei capire come interpretare la situazione.

    Il sito è un e-commerce e utilizza dei filtri con parametro query string gestiti con regola no index.
    Gli unici URL con parametri in query string che vengono indicizzati sono quelli corrispondenti alle categorie con paginazione. Indicizzando le pagine 1/2/3, vengono indicizzate anche quelle con filtro attivo per rispettare la navigazione dell'utente.

    Ho quindi provato a escludere queste pagine tramite il robots.txt file con un disallow.
    Il risultato è stato un innalzamento anomalo delle pagine indicizzate, che Google Search Console segnala bloccate dal file robots.txt.
    Sottoponendole al live test la pagina viene correttamente segnalata come non indicizzabile.

    Facendo delle ricerche ho inteso che questo fenomeno è causato dalla direttiva del robots.txt che non permette la lettura della pagina, quindi non potendo leggere la direttiva noindex Google sta "riscoprendo"(?) e indicizzando queste pagine che però non può scansionare.

    Avrei bisogno di capire, se qualcuno ha esperienza su un caso simile , come gestire l'indicizzazione, se è un comportamento normale e Google recepirà la modifica adeguando i report su Search Console, o se potrebbe esserci un errore nelle regola del robots.txt o un'anomali in corso.

    Grazie mille in anticipo


    sermatica oragetechnologies0 2 Risposte
  • Moderatore

    @fcarlo93 ha detto in Google Search Console - Robots.txt e filtri in disallow:

    Facendo delle ricerche ho inteso che questo fenomeno è causato dalla direttiva del robots.txt che non permette la lettura della pagina, quindi non potendo leggere la direttiva noindex Google sta "riscoprendo"(?) e indicizzando queste pagine che però non può scansionare.

    Esatto, il problema è qui. Devi metterle noindex. Poi quando le ha viste tutte non indicizzabili metti il Disallow nel robots.txt.


  • Moderatore


  • User Newbie

    @fcarlo93 Filters and Disallow Directives
    Filters in the context of robots.txt are achieved through Disallow directives, which prevent crawlers from accessing specified paths on your site. Here's how to effectively use them:

    Be specific: You can specify exact URLs or use wildcards to match patterns. For example, Disallow: /tmp/* blocks access to all URLs under the /tmp/ directory.
    Check for errors: Use Google Search Console to identify crawl errors or issues caused by robots.txt directives to ensure you're not inadvertently blocking important content from being indexed.