• Realizzare un Crawler / Spider semplice...

    Ciao a tutti i Dev della community! apro questo topic per chiedere consigli e/o quotazione per la realizzazione di uno Spider / Crawler semplice semplice... ecco cosa avrei bisogno che facesse:

    • Estrarre solo a comando cioè dovrei immettere io l'url in un campo input / text area e lanciare lo Scan (possibilmente su url multipli)
    • Estrarre da una pagina web meta title, meta description, meta keywords (se compilato) e url.
    • Dovrebbe popolare un file di tipo txt, xls, html, json (non un database)
    • Dovrebbe poter essere personalizzato nel nome esempio NomeBot (così da poter essere riconosciuto nelle analisi)

    Ho approfondito l'argomento e ho già visto, valutato e studiato diversi script PHP su GitHub e altri ambienti Dev ma sono tutti molto strutturati e mi piacerebbe mettere in campo qualcosa di + semplice e con sole queste caratteristiche.

    Il Crawler in questione mi servirebbe per un progetto personale che sto portando avanti a spizzichi e bocconi... quindi niente serio per il momento...

    Apprezzerei sia consigli su risorse da tenere in considerazione che quotazioni sul suo sviluppo (tranne che per servizi che espletano queste funzioni online come h t t p s : / / o c t o p a r s e . c o m )

    Ringrazio anticipatamente a chi mi vorrà aiutare!
    Thanks


  • Ciao @lorenzosa74 innanzitutto grazie per la risposta...

    parli di Google Sheets? immagino di si... l'ho valutato e funziona alla grande! il punto è che avrei bisogno proprio di uno script riconosciuto come un Bot e nella lista degli user-agent di Google non riesco a capire, o forse non c'è modo di farlo, come questa scansione venga poi registrata in Analytics...

    Comunque grazie... questa opzione la terrò sempre a disposizione nel caso dovessi abbandonare l'opzione "realizza un crawler"

    😉


  • Moderatore

    @lorenzosa74 Screaming Frog 😉


    ? 1 Risposta
  • @merlinox o per baccolina... dopo la tua risposta sono subito corso a controllare sul sito ed ho trovato "user-agents or your own custom UA" forse ho risolto così!

    Grazie! 😉


  • Community Manager

    Sposto questa discussione interessante nella sezione dei Tool!


  • @lorenzosa74 per quanto riguarda l'estrapolazione dei meta tag nessun problema.. ho già iniziato a farlo lavorare...

    Prossimo step è comprendere meglio come personalizzare il nome del Bot ma come detto in precedenza il tempo per i progetti personali è poco e sto andando avanti pian pianino... comunque aggiornerò presto il post!
    grazie mille!