Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?

seo.in.progress

Ciao Mirko, ti ringrazio del riscontro.
Si confermo l'obiettivo è bloccare le richieste delle risorse tipologia di pagine "prodotto + azienda" da parte di qualsiasi bot, incluso Googlebot.

mirkomassarutto

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Potresti restituire un 404 per quelle pagine se lo userAgent è Google. Personalmente non lo farei mai..

$user_agent = $_SERVER['HTTP_USER_AGENT'];

Nel caso accedesse un "GoogleBot" verificherei l'IP per vedere se è tra quelli dichiarati da BigG (in quel caso restituirei un bel "401 Unauthorized"

https://developers.google.com/static/search/apis/ipranges/googlebot.json?hl=it
https://www.gstatic.com/ipranges/goog.json

Se non appartiene a questi allora è un "malintenzionato" e quindi potresti anche bloccare l'IP

$user_ip = $_SERVER['REMOTE_ADDR']

Di seguito una lista di alcuni users agents. Qui trovi una Lista (risale al 2020.. ma credo possa bastare): https://perishablepress.com/list-all-user-agents-top-search-engines/

if(strpos($_SERVER['HTTP_USER_AGENT'], 'googlebot') !== FALSE)
   echo 'Google Bot';
elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'yahoo') !== FALSE)
   echo 'Yahoo Bot';
elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'bingbot') !== FALSE)
   echo 'Bing Bot';
elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'MSIE') !== FALSE)
   echo 'Internet Explorer';
 elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'Trident') !== FALSE) //For Supporting IE 11
    echo 'Internet Explorer';
 elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'Firefox') !== FALSE)
   echo 'Mozilla Firefox';
 elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'Chrome') !== FALSE)
   echo 'Google Chrome';
 elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'Opera Mini') !== FALSE)
   echo "Opera Mini";
 elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'Opera') !== FALSE)
   echo "Opera";
 elseif(strpos($_SERVER['HTTP_USER_AGENT'], 'Safari') !== FALSE)
   echo "Safari";
 else
   echo 'User Agent Sconosciuto';

sermatica

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

L'obiettivo è ridurre / bloccare le richieste delle risorse sulle pagine prodotto + azienda per efficientare il numero di richieste viste le dimensioni del sito.

Ciao,
puoi delineare meglio il problema? Cade il server? Se no quale problema avete, chiedo perchè non mi è chiaro? Se si avete un server + cache strutturato in modo da reggere un sito di quelle dimensioni?

Delineato questo vedo come trovare la soluzione migliore.

kal

Occhio sta cosa:

@mirkomassarutto ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Tieni presente che il Robots.txt è indicativo, quindi sarà poi il bot a decidere se seguire o meno...

No, il robots.txt è una direttiva rigida. Googlebot non accede alla URL se la blocchi via robots. Punto e stop.

kal

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Quale potrebbe essere la soluzione per bloccare non solo l'indicizzazione delle pagine prodotto + azienda ma anche la scansione / richiesta senza restituire uno stato 403 che immagino non sia il massimo anche in virtù del numero di pagine?

Premesso che andrebbe capito se davvero hai bisogno di fare sta cosa (perché molto probabilmente NON ne hai bisogno e ti stai complicando la vita con un non-problema), il modo migliore per evitare di far scansionare una pagina a Google è...

NON AVERLA PROPRIO SUL SITO

Ad esempio, le sotto-pagine potrebbero diventare delle tab o accordion accessibili dietro azione utente... in questo modo diminuisci in modo sensibile le URL da far scaricare al crawler, mantenendo sostanzialmente intatta l'esperienza utente.

seo.in.progress

@sermatica utilizziamo Google Cloud, la pagina viene "cachata" ogni volta che viene visitata da utenti o bot.

Il problema è la quantità di richieste che avviene contemporaneamente che genera un sensibile rallentamento del sito.
E' per questo che vorremmo bloccare la scansione (non semplicemente l'indicizzazione) di quella tipologia di pagine che producono in parte l'eccesso di richiesta e di cui non ci interessa l'indicizzazione.

Non posso eliminarle perché sono funzionali al sito.

@kal , prima di tutto complimenti per il test presentato al SEO Advanced Tool.

Il problema è che, come dicevo prima, quelle pagine sono funzionali al sito, si può acquistare un prodotto e quindi non posso né rimuoverle né accorparle.

Sono pagine raggiungibili:

dalla scheda azienda (2 link)
da utenti tramite un motore di ricerca interno (selezioni un prodotto / inserisci il dato / hai la pagina con dati azienda e confermi l'acquisto)

In pratica il mio problema è se c'è un modo per impedire ai Bot (Googlebot o altri) di eseguire la scansione tramite i link presenti nella pagina scheda azienda?

Il nofollow a livello di pagine scheda azienda (o sul singolo link) + noindex a livello di X-Robots tag nelle pagine prodotto + azienda potrebbe essere la soluzione?

kal

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

In pratica il mio problema è se c'è un modo per impedire ai Bot (Googlebot o altri) di eseguire la scansione tramite i link presenti nella pagina scheda azienda?

Se vuoi IMPEDIRE la scansione lasciando tutto come sta... la risposta è semplice: robots.txt Disallow eventualmente con le wildcard per beccare con una riga tutte le pagine "problematiche".

Però io due domandine sul perché quelle pagine siano lì da far scansionare ai bot me le farei.

Nel mio mondo ideale tutto ciò che è un URI pubblicamente accessibile, è anche da far scansionare a Google. Se vuoi che qualcosa non sia scansionato, non lo metti sul web pubblico (ma ad es. dietro un login, etc.).

Anche se mi rendo conto che il mondo reale è diverso da quello ideale

seo.in.progress

@kal ti ringrazio e completamente d'accordo sulla correttezza del mondo ideale ed onestamente mi trovo anche in una situazione paradossale nel "non" dover far indicizzare delle risorse ma purtroppo in questo caso siamo davanti a 6 mln di pagine x 3 e quindi ad una quantità di risorse enorme.

Abbiamo sottovalutato la possibile problematica ma lasciando la situazione così rischiamo di generare un rallentamento del sito e una cattiva esperienza degli utenti.

Bloccandole con Disallow tramite Robots.txt non sarebbero lo stesso scansionate dal bot perché linkate dalla pagina scheda azienda?

"While Google won't crawl or index the content blocked by a robots.txt file, we might still find and index a disallowed URL if it is linked from other places on the web."
https://developers.google.com/search/docs/crawling-indexing/robots/intro

Grazie mille dell'aiuto e delle indicazioni

kal

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Bloccandole con Disallow tramite Robots.txt non sarebbero lo stesso scansionate dal bot perché linkate dalla pagina scheda azienda?

No.

Sarebbero indicizzate, ma è una cosa differente. Indicizzato è come dire che Google ha preparato un posticino per le TUE pagine nel SUO indice... ma scansione e indicizzazione sono due aspetti diversi. Normalmente per indicizzare deve prima scansionare. Ma se una pagina è già indicizzata e blocchi la scansione... Googlebot smette di richiederla, ma resta indicizzata.

In pratica: potrebbero apparire in SERP per alcune parole chiave con la dicitura "descrizione non disponibile scopri perché" etc.

Se questa cosa possa essere un problema, lo lascio decidere a te.

Di certo, se il problema è la SCANSIONE... la risposta è indiscutibilmente "robots.txt Disallow".

mirkomassarutto

@kal si per google.. ma non per altri

mirkomassarutto

il problema qui è capire se non vuol far si che i motori lo scansionino (ripeto per me quasi assurdo)

kal

@mirkomassarutto ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

@kal si per google.. ma non per altri

Giusta osservazione.

Se il problema è il server sovraccarico beh... una soluzione è anche delle belle regole firewall che blocchino a monte il traffico dei bot malevoli.

C'è giusto giusto una bella serie di articoli molto pratici su questo pubblicati di recente da @QuelGareth sul suo blog:

https://www.andreascarpetta.it/cloudflare-anti-bot-1.html
https://www.andreascarpetta.it/cloudflare-super-bot-fight-2.html
https://www.andreascarpetta.it/cloudflare-super-bot-fight-3.html

Tutti da leggere.

sermatica

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Il problema è la quantità di richieste che avviene contemporaneamente che genera un sensibile rallentamento del sito.

Capisco, hai provato ad analizzare i log per vedere se è effettivamente Google Bot e non un altro Bot come quello di Bing?
Hai provato a vedere nelle statistiche di Scansione della Gsc quante pagine Google Bot scansiona ogni giorno?

Dopo che hai analizzato attentamente i vari parametri qui sopra puoi trarre le conclusioni e decidere come risolvere. Altrimenti rischi di lavorare es. sul robots.txt ma i bot malevoli lo ignorano allegramente. Poi valuterei cosa accadrebbe a depennare da Google e quindi dalle Serp una buona parte del tuo sito. Quindi per questo ti consiglio anche di analizzare il traffico che ricevono queste pagine dalle serp di Google analizzando nella GSC il posizionamento di quelle url.

kal

@sermatica ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

Quindi per questo ti consiglio anche di analizzare il traffico che ricevono queste pagine dalle serp di Google analizzando nella GSC il posizionamento di quelle url.

Consiglio saggissimo, avevo personalmente dato per scontato che traffico non ne portassero ma meglio essere sicuri.

Considera anche che segare così di brutto milioni di pagine causa un discreto sconquasso nella propagazione del pagerank interno, quindi potrebbero esserci effetti collaterali importanti anche lì.

Una decisione da non prendere a cuor leggero.

seo.in.progress

Ciao a tutti!
Grazie di tutte le indicazioni e scusate del ritardo del riscontro.

@kal ti ringrazio delle info. Mi era abbastanza chiaro il processo scansionamento / crawling e indicizzazione, ma onestamente non mi ero mai posto il problema di che cosa sarebbe successo se avessi bloccato lo scansionamento di una pagina indicizzata.
Anche perché oggettivamente fino ad adesso il mio problema era sempre stato indicizzare le pagine.

Articoli di Andrea Scarpetta, mi è capitato l'ultimo nel feed di LinkedIn e l'ho girato lunedì al reparto tecnico, anche perché usiamo proprio Cloudflare.

@sermatica grazie delle indicazioni. Dall'analisi che hanno fatto i colleghi del reparto tecnico sono principalmente Googlebot e Bingbot. Confermo che mi ritrovo le scansioni in Google Search tutti i giorni, Webmaster Tool di Bing confesso che non l'ho consultato. Il traffico generato da quelle tipologie di pagine è risibile.

@mirkomassarutto purtroppo non è completamente assurdo.
Come indicato anche precedentemente visto che il sito aveva dei gravi rallentamenti che influivano chiaramente su tutte le pagine e quindi sulle conversioni, determinato, secondo il reparto tecnico, in gran parte dalla richiesta dei bot di quelle 12 mln di pagine che erano funzionali al sito, ma avevano in parte contenuto duplicato e non stavano né generando traffico organico né conversioni.

Quindi per me non è stato completamente assurdo rinunciare a quelle pagine pur di salvare l'usabilità e lavorare ad altre 6 mln di pagine e migliorare le conversioni.

Anche se non credo che mi abbiano dato informazioni errate ho comunque richiesto al reparto tecnico di esportarmi i dati dei log e domani verificherò direttamente io con SEO Log File Analyser di Screming Frog le reali percentuali di richieste dai diversi Bot e successivamente capirò con loro se possiamo in qualche modo salvare quelle pagine (ad esempio se è sufficiente bloccare quegli spam con le indicazioni di Andrea Scarpetta) o bisogna intervenire con il disallow nel robots.txt.

Grazie mille a tutti della disponibilità e buona serata!

mirkomassarutto

@seo-in-progress ha detto in Bloccare richiesta di risorse: Robots.txt, Meta Noindex, Nofollox?:

mln

6 Milioni di Pagine??????????????????
Ultimamente mi par di vedere questo Mln un po' troppo spesso...

Non mi resta se non augurarti un "Buon Analisi"

seo.in.progress

@mirkomassarutto hai ragione sono di meno, il numero preciso dovrebbe avvicinarsi più ai 5 mln che ai 6.

Grazie del tuo augurio e buona serata!