seo.in.progress

seo.in.progress

Salve Sermatica!
Purtroppo non c'è nessuna risorsa bloccata tramite Robots.txt.
Ho richiesto un consiglio ad un SEO molto più esperto di me e mi ha indicato che in caso di "Other Error" in Search Console > test in tempo reale url potrebbe essere determinato dal fatto che si sta superando la quota disponibile per il Fetch per cui Google interrompe in modo proattivo la richiesta, senza contattare il server.
Qui c'è un riferimento ad un thread sulla community search console in cui vengono date alcune indicazioni al riguardo.
Grazie mille comunque del tuo aiuto.

seo.in.progress

Grazie mille Martino-
Buona giornata e buon lavoro!
Alessandro

seo.in.progress

@sermatica utilizziamo Google Cloud, la pagina viene "cachata" ogni volta che viene visitata da utenti o bot.

Il problema è la quantità di richieste che avviene contemporaneamente che genera un sensibile rallentamento del sito.
E' per questo che vorremmo bloccare la scansione (non semplicemente l'indicizzazione) di quella tipologia di pagine che producono in parte l'eccesso di richiesta e di cui non ci interessa l'indicizzazione.

Non posso eliminarle perché sono funzionali al sito.

@kal , prima di tutto complimenti per il test presentato al SEO Advanced Tool.

Il problema è che, come dicevo prima, quelle pagine sono funzionali al sito, si può acquistare un prodotto e quindi non posso né rimuoverle né accorparle.

Sono pagine raggiungibili:

dalla scheda azienda (2 link)
da utenti tramite un motore di ricerca interno (selezioni un prodotto / inserisci il dato / hai la pagina con dati azienda e confermi l'acquisto)

In pratica il mio problema è se c'è un modo per impedire ai Bot (Googlebot o altri) di eseguire la scansione tramite i link presenti nella pagina scheda azienda?

Il nofollow a livello di pagine scheda azienda (o sul singolo link) + noindex a livello di X-Robots tag nelle pagine prodotto + azienda potrebbe essere la soluzione?

seo.in.progress

@kal ti ringrazio e completamente d'accordo sulla correttezza del mondo ideale ed onestamente mi trovo anche in una situazione paradossale nel "non" dover far indicizzare delle risorse ma purtroppo in questo caso siamo davanti a 6 mln di pagine x 3 e quindi ad una quantità di risorse enorme.

Abbiamo sottovalutato la possibile problematica ma lasciando la situazione così rischiamo di generare un rallentamento del sito e una cattiva esperienza degli utenti.

Bloccandole con Disallow tramite Robots.txt non sarebbero lo stesso scansionate dal bot perché linkate dalla pagina scheda azienda?

"While Google won't crawl or index the content blocked by a robots.txt file, we might still find and index a disallowed URL if it is linked from other places on the web."
https://developers.google.com/search/docs/crawling-indexing/robots/intro

Grazie mille dell'aiuto e delle indicazioni

seo.in.progress

Ciao a tutti!
Grazie di tutte le indicazioni e scusate del ritardo del riscontro.

@kal ti ringrazio delle info. Mi era abbastanza chiaro il processo scansionamento / crawling e indicizzazione, ma onestamente non mi ero mai posto il problema di che cosa sarebbe successo se avessi bloccato lo scansionamento di una pagina indicizzata.
Anche perché oggettivamente fino ad adesso il mio problema era sempre stato indicizzare le pagine.

Articoli di Andrea Scarpetta, mi è capitato l'ultimo nel feed di LinkedIn e l'ho girato lunedì al reparto tecnico, anche perché usiamo proprio Cloudflare.

@sermatica grazie delle indicazioni. Dall'analisi che hanno fatto i colleghi del reparto tecnico sono principalmente Googlebot e Bingbot. Confermo che mi ritrovo le scansioni in Google Search tutti i giorni, Webmaster Tool di Bing confesso che non l'ho consultato. Il traffico generato da quelle tipologie di pagine è risibile.

@mirkomassarutto purtroppo non è completamente assurdo.
Come indicato anche precedentemente visto che il sito aveva dei gravi rallentamenti che influivano chiaramente su tutte le pagine e quindi sulle conversioni, determinato, secondo il reparto tecnico, in gran parte dalla richiesta dei bot di quelle 12 mln di pagine che erano funzionali al sito, ma avevano in parte contenuto duplicato e non stavano né generando traffico organico né conversioni.

Quindi per me non è stato completamente assurdo rinunciare a quelle pagine pur di salvare l'usabilità e lavorare ad altre 6 mln di pagine e migliorare le conversioni.

Anche se non credo che mi abbiano dato informazioni errate ho comunque richiesto al reparto tecnico di esportarmi i dati dei log e domani verificherò direttamente io con SEO Log File Analyser di Screming Frog le reali percentuali di richieste dai diversi Bot e successivamente capirò con loro se possiamo in qualche modo salvare quelle pagine (ad esempio se è sufficiente bloccare quegli spam con le indicazioni di Andrea Scarpetta) o bisogna intervenire con il disallow nel robots.txt.

Grazie mille a tutti della disponibilità e buona serata!

seo.in.progress

@seo.in.progress

I migliori post di seo.in.progress