• User

    SPAM nella ricerca interna di WordPress

    Ciao a tutti, chiedo un consiglio su come bloccare bot che eseguono ricerche spam creando pagine come queste che allego di seguito:

    https://www.boccadutri.com/it/search/大奖捕鱼玩法+Q82019309.com.com/feed/rss2/
    
    https://www.boccadutri.com/it/?s=%2525E5%2525A4%2525A7%2525E5%2525A5%252596%2525E5%2525A8%2525B1%2525E4%2525B9%252590%2525E6%252598%2525AF%2525E8%252580%252581%2525E5%252593%252581%2525E7%252589%25258C%2525E4%2525B9%252588%252BQ82019309.com.com/%252522callto%25253A%252B3493144481/%252522callto%25253A%252B3493144481/%2522callto%253A%2B3493144481/%22callto%3A+3493144481/"callto:+3493144481
    
    https://www.boccadutri.com/es/?s=%25E5%25A4%25A7%25E5%25A5%2596%25E8%2580%2581%25E8%2599%258E%25E6%259C%25BAAPP%25E7%2589%2588%2BQ82019309.com.com
    

    Attualmente i risultati non sono indicizzati perché ho impostato il noindex sui risultati di ricerca però Googlebot continua a scansionare queste pagine.
    Ho pensato di inserire su robots.txt :
    
User-agent: *
    Disallow: /?s=
    Disallow: /search/

    Ma rischio di ritrovarmi tutti i risultati indicizzati.

    Sapete indicarmi come posso risolvere?


    sermatica walid 2 Risposte
  • Moderatore

    @ltmac

    Ciao,
    i risultati di ricerca interna del tuo sito devono essere in noindex, se li avevi indicizzabili era un errore. Se google scansiona quelle pagine significa che erano indicizzate o sono state linkate da qualche parte, anche siti spam esterni.

    Quindi lascia il noindex che hai messo e attendi che il problema si risolva.


    ltmac 1 Risposta
  • User Attivo

    @ltmac bloccare sia l'accesso (robots.txt) che l'indicizzazione di queste pagine (html o htaccess) è una prima buona cosa da fare.

    Comunque, anche per un motivo di risorse, proverei un modo per bloccare questi bot, mi sa che Wordfence lo gestice bene


    ltmac 1 Risposta
  • User

    @sermatica

    Ciao, grazie per la risposta. I risultati di ricerca interna sono impostati in noindex. Ho atteso che il problema si risolvesse ma ho notato un aumento di pagine scansionate ma non indicizzate.

    Schermata 2023-03-10 alle 14.41.29.png

    Controllando i log del sito Googlebot mobile continua a scansionarli.
    Cercando sul database Q82019309. com su wp_rank_math_analytics_inspections trovo 40 risultati che indicano reffering_urls:

    ["https:\/\/www.boccadutri.com\/?s=%252525E5%252525A4%252525A9%252525E9%252525BE%25252599%252525E5%252525A5%252525A5%252525E9%252525A9%252525AC%252525E5%25252593%25252588%252BQ82019309.com%2Fwww.boccadutri.com%2Fit%2Fit%2Fabout-us","https:\/\/boccadutri.com\/offices\/palermo\/","http:\/\/www.boccadutri.com\/offices\/palermo\/"]
    

    Quindi, come dici tu ci saranno dei siti spam che linkano pagine del sito.

    Ma se provo a bloccarli trami htaccess?
    RewriteEngine on
    RewriteCond %{QUERY_STRING} Q82019309.com$
    RewriteRule .* - [F,L]


    sermatica 1 Risposta
  • User

    @walid

    Ciao grazie per la risposta, ho installato Wordfence e Firewall 7G. Su robots.txt ho inserito disallow su dei bad bot. Ma Google continua a scansionare queste pagine.


    walid 1 Risposta
  • User Attivo

    @ltmac ha detto in SPAM nella ricerca interna di WordPress:

    @walid

    ho inserito disallow su dei bad bot.

    Non ho capito cosa volevi dire, oppure non hai capito cosa fa il file robots.txt. Il file robots.txt technicamente non blocca nessuno, invece dice ai bot dove possono andare e dove non possono andare, poi spetta ai bot di seguire le direttive del robots.txt.

    Googlebot le rispetta, ma non tutti i bot, certamente non i bot degli spammer, se io voglio scansionare tutto il tuo sito, figuriamoci se guardo il tuo robots.txt.

    Come ti hanno detto, Google scansiona queste url perche sono state create da qualcuno e mandate da google in quelche modo, tu devi soltanto viterne l'accesso nel file txt e devrai che da domani Google smettera di scansionarle.

    Detto questo, non è detto che hai un problema di bot da bloccare (questo lo vedi nei log), come ti hanno detto sicuramente sono del link creati da spammer, poi i link sono mandati a Google, e di conseguenza Google viene sul tuo sito e prova a scansionarli. Se ne vieti l'accesso nel file robots.txt avrai gia risolto 99% del problema


    ltmac 1 Risposta
  • User

    @walid

    Grazie ancora, però non ho capito come ne vieto l'accesso tramite robots.txt. Puoi farmi un esempio?


    walid 1 Risposta
  • User Attivo

    @ltmac ha detto in SPAM nella ricerca interna di WordPress:

    @walid

    Grazie ancora, però non ho capito come ne vieto l'accesso tramite robots.txt. Puoi farmi un esempio?

    Certo, basta leggere la doc https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=fr


    ltmac 1 Risposta
  • User

    @walid

    ok, ma se non ho il nome del bot come lo blocco? io dai log vedo solo il bot di Google che scansiona queste pagine


    walid 1 Risposta
  • User Attivo

    @ltmac ha detto in SPAM nella ricerca interna di WordPress:

    @walid

    ok, ma se non ho il nome del bot come lo blocco? io dai log vedo solo il bot di Google che scansiona queste pagine

    Riprovo un ultima volta 😓

    Te, non devi bloccare nessuno, come dicevo il robots.txt non blocca nessuno. Il robots.txt è un file dove di comunicazione tra il tuo sito e i bot, che dichiara dove i bot possono andare e dove non possono andare.

    In poche parole se indici ai bot nel robot.txt che non possono andare in determinata una cartella, Googlebot smettera di andarci, ma il tuo server non blocca nessuno, stai solo dicendo ai bot "per piacere non andate in queste cartelle".

    Visto che il tuo problema riguarda solo Googlebot allora puoi risolvere in questo modo perche i bot di Google rispettano le direttive del robots.txt.

    Quando aggiungi questa regola nel robots.txt non specificare la regola per Googlebot, in questo modo la rispetterano anche i bot di Bing ed altri


    ltmac 1 Risposta
  • User

    @walid

    Grazie ancora per la pazienza, se dico a Googlebot di non seguire:
    User-agent: Googlebot
    Disallow: /?s=
    Disallow: /search/

    Non rischio di ritrovarmi tutti i risultati indicizzati?


    walid 1 Risposta
  • User Attivo

    @ltmac ha detto in SPAM nella ricerca interna di WordPress:

    @walid

    Grazie ancora per la pazienza, se dico a Googlebot di non seguire:
    User-agent: Googlebot
    Disallow: /?s=
    Disallow: /search/

    Lo sai che tu fai un po arrabbiare, perché non prendi il tempo di leggere. Intanto la tua cartella /search/ forse e sbagliata, io ho visto it/search nei tuoi primi messaggi.

    Non rischio di ritrovarmi tutti i risultati indicizzati?

    Pensaci, te stai dicendo al motore di non esplorare la pagina, se lui non la vede non te la indicizza.

    Detto questo, il robots.txt non serve a controllare l'indicizzazione, ma l'esplorazione (la scansione) del sito, l'indicizzazione è un altro concetto.

    Niente ti vieta (anzi è ancora meglio) aggiugere nel codice di tutte le pagine di ricerca una direttiva "noindex"


    ltmac 1 Risposta
  • User

    @walid ha detto in SPAM nella ricerca interna di WordPress:

    Pensaci, te stai dicendo al motore di non esplorare la pagina, se lui non la vede non te la indicizza.

    Per mettere il blocco tramite robots.txt si è trovato con 3.000 pagine nell'indice di Google – indicizzate, ma bloccate da robots.txt – https://www.seogarden.net/non-bloccare-le-query-spam-case-study/


  • Moderatore

    @ltmac ha detto in SPAM nella ricerca interna di WordPress:

    Ho atteso che il problema si risolvesse ma ho notato un aumento di pagine scansionate ma non indicizzate.

    Ciao,
    segui il mio primo post per risolvere il problema. Le altre azioni che hai fatto potrebbero avere effetti indesiderati.

    Se blocchi da robots.txt in realtà blocchi solo Google che non potrà vedere il noindex che hai messo.
    Presta molta attenzione a bloccare ip da htaccess, potresti bloccare utenti o bot di Google e similari con pessimi risultati.

    P.s.
    Analizza il motivo per cui hai 104.540 url non indicizzate, che url sono? Tutte create dai bot di spam? Se si sono in noindex?


    ltmac 1 Risposta
  • User

    @sermatica

    Grazie per la risposta, si la maggior parte sono url create da bot spam tutte in noindex. Ho installato tramite htaccess firewall 7G e poi messo un filtro che se effettuano una ricerca con quelle parole spam li mando in 410. Da queste modifiche noto un calo di pagine spam su GSC, però attraverso i log vedo sempre i bot che scansionano queste pagine.

    Allego il codice da applicare su function.php, magari può tornare utile a qualcuno:

    
    /*---------------------------------------------------*/
    /*  SEARCH PAGES WITH SPAM RESULTS SEND 410 HTTP CODE  */
    /*---------------------------------------------------*/
    
    add_filter( 'pre_get_posts', 'tdstart_block_search' );
    function tdstart_block_search( $query ) {
        if ( ! empty( $query->query_vars['s'] ) ) {
            $blacklist = array( '大奖', 'q82','%E5','%25','%E8','IM%','SM%','88%' );
            foreach ( $blacklist as $term ) {
                if ( mb_stripos( $query->query_vars['s'], $term ) !== false ) {
                    http_response_code( 410 );
                    exit();
                }
            }
         }
    }
    
    

  • Il limite di questi script è che prima o poi useranno parole diverse e devi ricominciare daccapo.

    Consiglio wordfence, di base è gratuito e già cosi blocca parecchio, alleggerendo anche il carico al server. Poi c'è la versione a pagamento che aggiunge filtri più precisi e altre funzionalità come il filtro per nazione (alcune nazioni fanno solo spam e cracking).
    Da poco sto usando cludflare gratuito e usato con molta attenzione è ottimo per filtrare spam e similari.


    ltmac 1 Risposta
  • User

    @homeworker

    Grazie per la risposta, si hai ragione infatti controllo sempre i log per inserire i nuovi con la speranza che blocco questi bot. Wordfence lo sto già utilizzando ed anche Cloudflare. Ora sto provvedendo ad installare il firewall di Wordfance che dovrebbe aiutare.