• User

    [FeedFetcher-Google] lo spider di google si iscrive ai feed

    Ieri mentre osservavo i log per capire di più su queste ultime penalizzazioni di google mi sono imbattuto in uno spider di questo genere:

    Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 1 subscribers; feed-id=8900576382312129891898201421

    Vi risulta ?


  • Community Manager

    Ti sposto in Laboratorio, vediamo se qualcuno sa qualcosa 🙂


  • Moderatore

    Si! Si tratta dello spider di GG interamente dedicato al crawling di RSS Feeds!

    Da me passa ogni ora con una precisione svizzera! 😉


  • Community Manager

    Ciao Paocavo,

    non seguo molto il mondo spider.

    Riesci a sapere che informazioni segue? O sai solo che prende gli Rss?


  • Moderatore

    Panoramica sul Grabber FeedFetcher-Google

    Già dal mese di Ottobre 2005 Google invia sulla Rete il Grabber
    identificato dal seguente User-Agent:

    
    FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)
    
    

    Il Grabber è tutto dedicato al crawling di RSS Feeds e Atoms ed è utilizzato
    per popolare i risultati di ricerca della home page personalizzata di Google e di Google Reader.

    Per assicurarsi che il proprio feed faccia parte di questo indice bisogna
    aggiungere un tag <link> alla sezione HEAD della Home Page per attivare l'autorilevamento del feed.
    Per un feed Atom:
    <link rel="alternate" type="application/atom+xml" title="Il titolo del tuo feed" href="http://www.esempio.it/atom.xml" />
    Per un feed RSS:
    <link rel="alternate" type="application/rss+xml" title="Il titolo del tuo feed" href="http://www.esempio.it/rss.xml" />

    Tieni presente che le richieste feedfetcher sono tutte (inizialmente) avviate dall'utente, pertanto non indicizza i feed per aggiungerli ai risultati di ricerca dei servizi Google. I feed che compaiono nei risultati di ricerca sono quelli scansionati da Googlebot.

    Poiché le richieste di Feedfetcher sono tutte avviate dall'utente, questo strumento non segue le istruzioni di robots.txt per i robot.

    Feedfetcher non è correlato all'indice di** Ricerca Blog**. Ricerca Blog indicizza i tuo feed eseguendo un ping sul server di diffusione dei contenuti.

    A differenza dei normali crawler web, Feedfetcher non segue i link, ma segue le richieste che riceve dagli utenti della home page personalizzata di Google.

    Maggiori info su: Google Webmaster Help Center

    Come si evince dal seguente grafico (accessi dei Crawlers di Google su un mio sito) una volta che Feedfetcher "conosce" un sito allora lo continuerà a visitare con una frequenza oraria:

    image

    :ciauz:


  • User Attivo

    Quindi potrebbe essere che c'è qualcuno che tiene sulla pagina personalizzata di google i suoi feed...


  • Moderatore

    @FuSioNmAn said:

    Quindi potrebbe essere che c'è qualcuno che tiene sulla pagina personalizzata di google i suoi feed...

    Evidentemente si ;), oltre a me c'è qualcuno che ha inserito i miei feeds nella sua Home Personalizzata di Google (GPH).

    Tra l'altro volevo far notare, come si evince dal grafico suddetto, che in realtà gli spider utilizzati sono due con differenti User Agents:

    1. Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
    2. Feedfetcher-Google; (+http://www.google.com/feedfetcher_html; 2)

    Sembrerebbe (è solo una mia ipotesi) che il primo venga avviato quando un nuovo utente inserisce per la prima volta i feeds nella sua GPH, mentre il secondo passa regolarmente ogni ora se non è già passato il primo (per risparmiare banda?) per controllare se ci sono aggiornamenti.
    Quindi si potrebbe concludere che il primo Spider fornisce informazioni su quanti Nuovi utenti sottoscrivono gli RSS Feeds nella loro GPH.
    Nella documentazione ufficiale di Google si legge che questi Crawler non hanno nulla a che fare con il consueto crawling di GoogleBot che serve a mantenere il suo Indice Generale del MDR ma, IMHO, non ci metterei la mano sul fuoco...
    (perchè non sfruttare gli RSS per rilevare subito che cosa c'è di nuovo sul sito e comunicarlo a GoogleBot? Si avrebbe un risparmio di banda IMHO)

    :ciauz: