• User Attivo

    GoogleBot gira, ma si perde nel sito

    Ciao ragazzi, come ho avuto modo di strombazzare pesantemente anche all'interno del forum un mesetto fa circa ho lanciato il sito www. storiadellamusica .it . LA reazione del bot è stata immediata e ottima: fin da subito googlebot ha iniziato a trascorrere intere giornate sul sito, indicizzando immediatamente gran parte dei contenuti e percorrendo il sito in lungo e in largo.
    Ma c'è un ma: tutte le pagine del sito hanno una funzionephp che fa coincidere con il tag strong un richiamo ad una pagina di ricerca. Mi spiego: se nel testo è evidenziata la parola Placebo cliccando si apre una pagina search con tutti risultati della query Placebo. Googlebot ovviamente seguiva anche quei link, ma ora sembra seguire SOLO qui link.
    Inizialmente mi sembrava una cosa positiva ma ora comincio ad avere il sospetto che dovrei mettere un bel no-follow su tutti questi link: i pro di questa soluzione sono che otterrei una navigazione più "ordinata" da parte del bot facendogli consumare meno risorse inutili, i contro stanno nella mia paura di perdere un sistema apparentemente efficace di indicizzazione, perchè comunque vista la frequenza con cui passa (tutti i giorni, tutto il giorno) Google non sembra infastidito da quest'opzione, anzi (ma in realtà alcuni rallentamenti nell'indicizzazione di articoli più recenti cominciano a farmi pensare che qualcosa non vada).
    Insomma, mi manca un pò la lucidità per decidermi: voi cosa consigliate ? Se serve vi salvo una paginata di statistiche e ve la metto online ...


  • Super User

    se segui quei link anche tu, vedi che ti perdi come googlebot.


  • User Attivo

    Vedi che ho l'impressione che quei link vadano in loop.


  • User Attivo

    Si, esatto, alcuni link soprattutto pare abbiano mandato in confusione il bot: ad esempio "M/A/R/R/S", a causa di quegli slash ha portato googlebt a fare confusione e ricercare autonomamente sottocartelle inesistenti !
    Questo è un esempio delle stats di stamattina:

    07:58:50 /search.php?search=Time%3Cem%3E%E2%...ite_Light/search_White_Light/s
    07:59:26 /search.php?search=A_New_World_Reco...t/search_GZA/inviaarticolo.php
    08:05:18 /search.php?search=White_Light/sear...R/S/search_Third/search_White_
    08:06:08 /search.php?search=White_Light/sear...R/S/search_Third/search_White_
    08:06:58 /search.php?search=%3Cem%3EOn_the_T.../storia_della_musica_recension
    08:07:48 /search.php?search=Time%3Cem%3E%E2%...censioni_classifiche/search_M/
    08:08:39 /search.php?search=Time%3Cem%3E%E2%...classifiche/search_M/A/R/S/sea
    08:35:23 /search.php?search=AC/search_counting_crowes
    08:49:11 /search.php?search=AC/search_Pat_Boone
    08:49:54 /search.php?search=AC/search_Scott_McKenzie
    09:20:15 /search.php?search=AC/search_Third/search_AC/search_Pat_Boone
    09:31:18 /search.php?search=AC/search_velvet_underground
    09:49:49 /search.php?search=AC/search_Third/search_Third/search_Pat_Boone
    09:51:08 /search.php?search=AC/search_Third/search_Third/inviaarticolo.php
    10:01:40 /search.php?search=AC/search_Third/search_AC/search_Scott_McKenzie
    10:39:33 /search.php?search=AC/search_Third/search_Third/search_counting_crowes
    10:53:59 /search.php?search=AC/search_Third/search_AC/search_counting_crowes
    11:14:15 /search.php?search=AC/search_Third/...hird/search_velvet_underground
    11:44:27 /search.php?search=AC/search_Third/search_AC/search_velvet_underground

    Come vedete google ricerca link inesistenti e disperde energie preziose.
    Consigliate un no follow secco ?
    Ho provato anche a togliere gli slash dai nomi-gruppo ma come vedete il loop prosegue ...


  • User Attivo

    Ripensandoci, un'alternativa potrebbe essere, invece di mettere il nofollow, dare qualche link per l'uscita dal loop anche nel caso la ricerca non produca risultati, oppure sostituire nel box le ultime ricerche con i dischi del mese. Che dite ?
    Link di fuga o no follow ?


  • Super User

    hey, ma non è che hai fatto modifiche al codice dopo che hai lanciato questo thread? :():


  • User Attivo

    Impossibile: io sono ad Amburgo e il prog in ufficio 🙂
    Why ?
    P.s.
    Mi è venuta un'idea che è forse è la migliore. Non mettere no follow ma spezzare il loop sostituendo ultime ricerche con un ultime inserzioni, un random sulle ultime 20 recensioni/articoli.
    Che dite ?


  • Super User

    @doopcircus said:

    Impossibile: io sono ad Amburgo e il prog in ufficio 🙂
    Why ?

    perchè non riesco a replicare il loop che ho visto prima (o meglio, non riesco ad arrivarci).

    ma tipo, guarda qui: http://www .storiadellamusica.it/search_AC/ (stacco l'url che sennò googlebot se lo pappa :)).
    a me non sembra normale 🙂 (mentre invece mi sembra normale che googlebot si incarti. glielo dici tu di incartarsi!)


  • User Attivo

    Si, ma questo link mica è presente nel sito 🙂
    Non esiste una ricerca con quelle coordinate se guardi: diciamo che era un bug come dicevo legato alla presenza in certi nomi di disco/gruppo dello slash "/". Beccando quelli google partorisce ricerche di termini inesistenti, probabilmente considerando quelo slash come l'inizio di una sotto directory. Da lì i loop interminabili. Gli slash li ho eliminati più di una settimana fa ma google bot continua a cercarli, probabilmente a causa dei dati che ha in cache. Insomma, un vero casino 🙂 Per di più queste pagine ricerche sono anche contenuti duplicati e google si imbottiglia perchè segue i link in cima (altri link a ricerca).
    Per questo ho pensato che cambiare i link in cima con link NON a pagine risultati ricerca sia meglio, perchè il no follow lo mandrebbe (forse) ancora più in confusione.


  • Super User

    guarda che io quel link l'ho trovato dopo che hai aperto il thread... quindi da qualche parte c'è un link a ricerche che fanno loop.

    e vedi che mica è facile fare spam engine 😄


  • User Attivo

    ahahah
    non mettere il dito nella piaga, lo sembra davvero, è proprio quello che temo 🙂
    a questo punto un bel no-follow su tutti i link alle pagine search forse è l'unica, nè ?


  • Super User

    si, direi nofollow + noindex + robots.txt


  • User Attivo

    confermo quello che dice must, prima cliccando su un link ad esempio placebo uscivano url del tipo /search_Third/search_Third/search_AC/search_Third//search_AC/search

    se vado ora sullo stesso link sembra più regolare, quindi se è una cosa casuale è un problema.
    cmq se vuoi escluderli vai di robots.txt... scommetto 10 euro che se metti il nofollow lo spider continuerà a passare su quelle pagine per molto tempo 🙂

    altra considerazione: ma non crea inconsistenza una homepage che è totalmente diversa di contenuti ad ogni reload?


  • User Attivo

    Pensavo di procedere così:

    No follow : rel="nofollow" nei link corrispondenti agli strong
    No Index: nei meta del modello pagina dei risultati ricerca <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">, sostituendo ultime ricerche con un ultime che randomizzi tra le ultime 20 recensioni/articoli e ne pubblichi 5
    Robot Txt: (http://www.motoricerca.info/robots.phtml) nella root con questo User-agent: googlebot
    Disallow: /cartella_search

    Per quanto riguarda l'inconsistenza esistono degli indici statici al secondo livello, ma in home un minimo di random serve per chi torna a vedere il sito frequentemente e, ripeto, la reazione iniziale del bot era stata molto buona.
    La storia dei loop è cominciata dopo un pò, penso a causa di un paio di capitoli difettosi.

    Per quanto rigurarda la questione link sballati la cosa che hai visto coi placebo non me l'ha mai fatta: mi fai qualche altro esempio così checko di persona. Se c'è un bug nel codice allora la prima cosa da fare è risolvere quello ...


  • User Attivo

    Non è google a far confusione ma quella funzione, puoi replicare l'errore così:

    1. cerca M/A/R/R/S
    2. cerca qualcos'altro
    3. nel box LE ULTIME DIECI RICERCHE clicca su M/A/R/R/S
    4. clicca sui link che trovi
      ed entri in un loop infinito

  • User Attivo

    @doopcircus said:

    Pensavo di procedere così:

    No follow : rel="nofollow" nei link corrispondenti agli strong
    No Index: nei meta del modello pagina dei risultati ricerca <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">, sostituendo ultime ricerche con un ultime che randomizzi tra le ultime 20 recensioni/articoli e ne pubblichi 5
    Robot Txt: (http://www.motoricerca.info/robots.phtml) nella root con questo User-agent: googlebot
    Disallow: /cartella_search

    Si va bene, ho avuto anche io una esperienza di loop su un wiki e ho risolto solo con il robots.txt usando l'asterisco, esempio disallow: *_search.

    Per quanto rigurarda la questione link sballati la cosa che hai visto coi placebo non me l'ha mai fatta: mi fai qualche altro esempio così checko di persona. Se c'è un bug nel codice allora la prima cosa da fare è risolvere quello ...

    si ok hai ragione tu, ho ricontrollato, il loop me lo da dal secondo livello, cioè clicco placebo e va tutto ok, poi clicco il primo e va in loop.


  • User Attivo

    Si, esatto, per quello ero indeciso tra nofollow e sostituzione del box ultime ricerche con un altro che porta alle recensioni. Il problema , che mi fa propendere per la prima opzione,è che comunque ognuno di questi link alla pagina search crea una pagina diversa: centinaia di pagine identiche o quasi, ai limiti dello spam. La soluzione più sicura penso sia quindi quella di optare per un no follow, come diceva anche Must. Concordate ?


  • User Attivo

    @doopcircus said:

    La soluzione più sicura penso sia quindi quella di optare per un no follow, come diceva anche Must. Concordate ?

    Per quel poco che può valere il mio parere, io non concordo. Se c'è un errore di programmazione va corretto, non mascherato ai motori, anche gli utenti comunque possono entrare in quel loop.


  • User Attivo

    No, il loop per l'utente non c'è. Quei valori li possono creare solo gli spider che io sappia: tutti i link che ho testato vanno alla perfezione. Il fenomeno dei link sballati era legato alla presenza del "/" in alcuni nomi di artista e titoli di album ma ora è stato risolto.


  • User Attivo

    Il loop per l'utente c'è, io ci sono andato e ho spiegato 2 post fa come riprodurlo, comunque se va bene a te tienlo così.