Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?

seo.in.progress

@kal ti ringrazio e completamente d'accordo sulla correttezza del mondo ideale ed onestamente mi trovo anche in una situazione paradossale nel "non" dover far indicizzare delle risorse ma purtroppo in questo caso siamo davanti a 6 mln di pagine x 3 e quindi ad una quantità di risorse enorme.

Abbiamo sottovalutato la possibile problematica ma lasciando la situazione così rischiamo di generare un rallentamento del sito e una cattiva esperienza degli utenti.

Bloccandole con Disallow tramite Robots.txt non sarebbero lo stesso scansionate dal bot perché linkate dalla pagina scheda azienda?

"While Google won't crawl or index the content blocked by a robots.txt file, we might still find and index a disallowed URL if it is linked from other places on the web."
https://developers.google.com/search/docs/crawling-indexing/robots/intro

Grazie mille dell'aiuto e delle indicazioni

kal

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Bloccandole con Disallow tramite Robots.txt non sarebbero lo stesso scansionate dal bot perché linkate dalla pagina scheda azienda?

No.

Sarebbero indicizzate, ma è una cosa differente. Indicizzato è come dire che Google ha preparato un posticino per le TUE pagine nel SUO indice... ma scansione e indicizzazione sono due aspetti diversi. Normalmente per indicizzare deve prima scansionare. Ma se una pagina è già indicizzata e blocchi la scansione... Googlebot smette di richiederla, ma resta indicizzata.

In pratica: potrebbero apparire in SERP per alcune parole chiave con la dicitura "descrizione non disponibile scopri perché" etc.

Se questa cosa possa essere un problema, lo lascio decidere a te.

Di certo, se il problema è la SCANSIONE... la risposta è indiscutibilmente "robots.txt Disallow".

mirkomassarutto

@kal si per google.. ma non per altri

mirkomassarutto

il problema qui è capire se non vuol far si che i motori lo scansionino (ripeto per me quasi assurdo)

kal

@mirkomassarutto ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

@kal si per google.. ma non per altri

Giusta osservazione.

Se il problema è il server sovraccarico beh... una soluzione è anche delle belle regole firewall che blocchino a monte il traffico dei bot malevoli.

C'è giusto giusto una bella serie di articoli molto pratici su questo pubblicati di recente da @QuelGareth sul suo blog:

https://www.andreascarpetta.it/cloudflare-anti-bot-1.html
https://www.andreascarpetta.it/cloudflare-super-bot-fight-2.html
https://www.andreascarpetta.it/cloudflare-super-bot-fight-3.html

Tutti da leggere.

sermatica

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Il problema è la quantità di richieste che avviene contemporaneamente che genera un sensibile rallentamento del sito.

Capisco, hai provato ad analizzare i log per vedere se è effettivamente Google Bot e non un altro Bot come quello di Bing?
Hai provato a vedere nelle statistiche di Scansione della Gsc quante pagine Google Bot scansiona ogni giorno?

Dopo che hai analizzato attentamente i vari parametri qui sopra puoi trarre le conclusioni e decidere come risolvere. Altrimenti rischi di lavorare es. sul robots.txt ma i bot malevoli lo ignorano allegramente. Poi valuterei cosa accadrebbe a depennare da Google e quindi dalle Serp una buona parte del tuo sito. Quindi per questo ti consiglio anche di analizzare il traffico che ricevono queste pagine dalle serp di Google analizzando nella GSC il posizionamento di quelle url.

kal

@sermatica ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Quindi per questo ti consiglio anche di analizzare il traffico che ricevono queste pagine dalle serp di Google analizzando nella GSC il posizionamento di quelle url.

Consiglio saggissimo, avevo personalmente dato per scontato che traffico non ne portassero ma meglio essere sicuri.

Considera anche che segare così di brutto milioni di pagine causa un discreto sconquasso nella propagazione del pagerank interno, quindi potrebbero esserci effetti collaterali importanti anche lì.

Una decisione da non prendere a cuor leggero.

seo.in.progress

Ciao a tutti!
Grazie di tutte le indicazioni e scusate del ritardo del riscontro.

@kal ti ringrazio delle info. Mi era abbastanza chiaro il processo scansionamento / crawling e indicizzazione, ma onestamente non mi ero mai posto il problema di che cosa sarebbe successo se avessi bloccato lo scansionamento di una pagina indicizzata.
Anche perché oggettivamente fino ad adesso il mio problema era sempre stato indicizzare le pagine.

Articoli di Andrea Scarpetta, mi è capitato l'ultimo nel feed di LinkedIn e l'ho girato lunedì al reparto tecnico, anche perché usiamo proprio Cloudflare.

@sermatica grazie delle indicazioni. Dall'analisi che hanno fatto i colleghi del reparto tecnico sono principalmente Googlebot e Bingbot. Confermo che mi ritrovo le scansioni in Google Search tutti i giorni, Webmaster Tool di Bing confesso che non l'ho consultato. Il traffico generato da quelle tipologie di pagine è risibile.

@mirkomassarutto purtroppo non è completamente assurdo.
Come indicato anche precedentemente visto che il sito aveva dei gravi rallentamenti che influivano chiaramente su tutte le pagine e quindi sulle conversioni, determinato, secondo il reparto tecnico, in gran parte dalla richiesta dei bot di quelle 12 mln di pagine che erano funzionali al sito, ma avevano in parte contenuto duplicato e non stavano né generando traffico organico né conversioni.

Quindi per me non è stato completamente assurdo rinunciare a quelle pagine pur di salvare l'usabilità e lavorare ad altre 6 mln di pagine e migliorare le conversioni.

Anche se non credo che mi abbiano dato informazioni errate ho comunque richiesto al reparto tecnico di esportarmi i dati dei log e domani verificherò direttamente io con SEO Log File Analyser di Screming Frog le reali percentuali di richieste dai diversi Bot e successivamente capirò con loro se possiamo in qualche modo salvare quelle pagine (ad esempio se è sufficiente bloccare quegli spam con le indicazioni di Andrea Scarpetta) o bisogna intervenire con il disallow nel robots.txt.

Grazie mille a tutti della disponibilità e buona serata!

mirkomassarutto

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

mln

6 Milioni di Pagine??????????????????
Ultimamente mi par di vedere questo Mln un po' troppo spesso...

Non mi resta se non augurarti un "Buon Analisi"

seo.in.progress

@mirkomassarutto hai ragione sono di meno, il numero preciso dovrebbe avvicinarsi più ai 5 mln che ai 6.

Grazie del tuo augurio e buona serata!