• User

    Riconoscere Spider ....

    ... tranquilli non voglio fare niente di male 😄 ma ho la seguente esigenza, in pratica ho il mio sito che ha un Iframe , il contenuto dentro questo cambia in maniera dinamica, ora per esigenze di procedure interne, in ogni pagina che contiene l' Iframe cè un controllo della sessionId , se questa la trova vuota o nulla fà un redirect ... il problema è che io vorrei far si, per ovvi motivi di indicizzazione, di capire se è uno spider o meno, e solo e soltanto se è uno spider valorizzare la sessionId ....

    Come posso fare?

    Potrei anche girare il problema, nel senso che otterei lo stesso scopo se potessi riconoscere se non è uno spider ...

    Grazie


  • Moderatore

    @O-WK said:

    il problema è che io vorrei far si, per ovvi motivi di indicizzazione, di capire se è uno spider o meno, e solo e soltanto se è uno spider valorizzare la sessionId ....

    Come posso fare?

    Potrei anche girare il problema, nel senso che otterei lo stesso scopo se potessi riconoscere se non è uno spider ...

    Grazie

    Basta che controlli alcune "ServerVariables" (SV). La maggior parte degli spider (inclusi quelli più importanti...) sono caratterizzati dalle seguenti SV:

    1. REFERER = stringa vuota (vero per Tutti gli spider)
    2. USER_AGENT non contiene la stringa "MSIE"

  • User Newbie

    Salve, sono nuovo di questo Forum... ma son capitato su questo POST effettuando un ricerca su Google proprio in relazione al "riconoscimento" di spider/BOT...

    Vorrei solo correggere l'affermazione precedente nel quale si sostiene che i crawler o spider che siano non registrino $_SERVER['HTTP_REFERER']...

    Un esempio lo è SurveyBot che invece va ad inserire un REFERER nonostante non si tratti di un browser o utente "reale" che sia...

    sul discorso della stringa MSIE non saprei invece... indagherò... 😃


  • User Newbie

    mmmhhh... dopo una rapida occhiata su un log web.... ho ritrovato un IRLBot/2.0 con la seguente stringa nell'agent:

    IRLbot/2.0 (compatible; MSIE 6.0; http://irl.cs.tamu.edu/crawler)

    e queste altre sospette...

    Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MSIECrawler)

    Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0; Girafabot; girafabot at girafa dot com; http://www.girafa.com)

    :bho: