• User Newbie

    Nutch

    salve a tutti, a me servirebbero il maggiorn numero di informazioni su Nutch, apparte quelle che sono sul sito mi interessava sapere la sintassi che si deve usare per far indicizzare e far fare il crawl a nutch di una directory.
    Qualcuno sa come si fa?
    che file va modificato e in che modo?
    grazie anticipato a tutti per la vostra disponibilita

            poetaestinto80

  • Community Manager

    Ciao poetaestinto80 e Benvenuto sul Forum GT.

    L'unico documento in Italiano che ho trovato è dello Studio Cappello.

    http://www.studiocappello.it/wm/Motori_di_ricerca_-strumento/motori_di_ricerca_open.html

    :ciauz:


  • User Newbie

    grazie per l'indicazione, ma mi servirebbero informazioni piu precise su l'indicizzazione di directory


  • User Newbie

    quindi non c'è nessuno che puo darmi una mano con il problema che ho?
    devo indicizzare una directory in locale usando linux.
    Ho provato a modificare il file crawl-urlfilter.txt , ma penso di fare alcuni errori di sintassi. io l'ho modifico in questo modo:

    Creative Commnons crawl filter

    Each non-comment, non-blank line contains a regular expression

    prefixed by '+' or '-'. The first matching pattern in the file

    determines whether a URL is included or ignored. If no pattern

    matches, the URL is ignored.

    skip file:, ftp:, & mailto: urls

    -^(http|ftp|mailto):

    skip image and other suffixes we can't yet parse

    -.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|rtf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe)$

    skip URLs containing certain characters as probable queries, etc.

    #-[!@]
    #+[?&=%]
    -[?
    !@=]

    #URLs VALIDE

    +^file:///usr/Proventi2/([a-z0-9]*.)/

    accept anything else

    +.*

    Sapete dirmi se ho fatto bene?