• ModSenior

    Munin

    Ho installato munin su un vps con Ubuntu 11.04, solitamente lo utilizzo sempre e va sempre subito senza problemi, questa volta invece non vuole saperne di aggiornarsi.
    Tutti i grafici hanno i valori -NaN in quanto non ha mai iniziato a funzionare, sin dall'installazione.
    Il file di log munin-update riporta il seguente problema, ogni volta che dovrebbe aggiornarsi:

    
    2012/03/25 22:00:01 Opened log file
    2012/03/25 22:00:01 [INFO]: Starting munin-update
    2012/03/25 22:00:01 Failed to connect to node 127.0.0.1:4949/tcp : Connection refused
    2012/03/25 22:00:01 [ERROR] Munin::Master::UpdateWorker<localdomain;localhost.localdomain> failed to connect to node
    2012/03/25 22:00:11 [WARNING] Call to accept timed out.  Remaining workers: localdomain;localhost.localdomain
    2012/03/25 22:00:11 [INFO] Reaping Munin::Master::UpdateWorker<localdomain;localhost.localdomain>.  Exit value/signal: 20/0
    2012/03/25 22:00:11 [INFO]: Munin-update finished (10.03 sec)
    
    ```Non capisco perchè la connessione venga rifiutata, iptables non ha regole e lascia passare tutto.
    
    Grazie in anticipo per le risposte.

  • Moderatore

    Quello che è sicuro è che i tentativi di connessione vanno in timeout. Quindi è la componente server a non rispondere.

    Magari va in crash? O è impegnato in elaborazioni troppo a lungo? Ho visto che c'è altra gente che lamenta lo stesso problema a causa di lunghe elaborazioni che mettono, di fatto, la componente server offline.


  • ModSenior

    Grazie per la risposta paolino.
    Sono riuscito a farlo funzionare mentre stavo per risponderti.
    Mi inviava messaggi in /var/log/root dicendo di non riuscire a creare i file di lock, infatti mancava la cartella, l'ho creata e sistemato i permessi ed ha iniziato a funzionare.

    Nel file di log segnalava dei warning relativi a send_mail, ed ho installato postfix, e munin ha smesso di nuovo di funzionare:

    
    2012/03/25 22:55:01 Opened log file
    2012/03/25 22:55:01 [INFO]: Starting munin-update
    2012/03/25 22:55:02 Failed to connect to node 127.0.0.1:4949/tcp : Connection refused
    2012/03/25 22:55:02 [ERROR] Munin::Master::UpdateWorker<localdomain;localhost.localdomain> failed to connect to node
    2012/03/25 22:55:12 [WARNING] Call to accept timed out.  Remaining workers: localdomain;localhost.localdomain
    2012/03/25 22:55:12 [INFO] Reaping Munin::Master::UpdateWorker<localdomain;localhost.localdomain>.  Exit value/signal: 20/0
    2012/03/25 22:55:12 [INFO]: Munin-update finished (10.05 sec)
    
    

    EDIT:
    Ho appena notato che è sparita la cartella che avevo creato, e in /var/mail/nobody ho lo stesso messaggio che avevo visto all'inizio.
    Adesso ho ricreato la cartella, anche se non capisco perchè la cartella sia sparita.
    Ma contrariamente a quanto mi aspettavo continua a non funzionare, e nei log ho sempre quell'errore di timeout che ho riportato sopra.


  • Moderatore

    Quindi inizialmente non riusciva proprio a partire. Mi sa che è un problema di permessi. Qual'è l'utente assegnato al server munin?

    Suppongo non sia root chiaramente.


  • ModSenior

    In realtà non avevo ancora modificato la configurazione di munin per farlo girare con un altro utente, e stà girando come root.
    La cartella che ho dovuto creare in /var/run non riesce però a scriverla, devo impostare i permessi a 777 sulla cartella e dopo l'errore dei permessi sparisce.
    E la cartella viene cancellata se riavvio il vps, e devo ricrearla.


  • Moderatore

    Verifica se esiste un utente che potrebbe corrispondere a munin. Sto pensando che il programma si rifiuta di funzionare come root e forka un figlio assegnandolo ad un utente meno privilegiato.

    Può sembrare un'idea stramba, però non si spiegherebbe altrimenti come sia possibile che non riesca a creare una banale directory ( girando come root ).

    Il fatto che i messaggi arrivino nella mailbox dell'utente nobody avvalora questa tesi. Tieni presente che alcuni software ( postfix ad esempio ) girano come utente nobody. Magari munin pretende di fare lo stesso.


  • ModSenior

    Esiste un utente ed un gruppo munin, ho modificato la configurazione e ora stà girando come utente munin e gruppo munin.
    Non è riuscito a creare solo la cartella, e l'ho quindi creata manualmente e impostato come proprietario della cartella.
    Ma continuo ad avere lo stesso problema.

    Le email in uscita del vps non vengono consegnate, ma credo sia un problema relativo alla configurazione dns del dominio, che non ho ancora ultimato in quanto ho avuto qualche problema con la configurazione di bind. Potrebbe essere questo problema a farlo andare in timeout?


  • Moderatore

    Se munin usa il domain name per accedere alla sua componente server e se bind ha problemi, allora è molto probabile.

    L'unico modo per scollegare i due, è far usare a munin l'ip.


  • ModSenior

    Ho provato a reimpostare la configurazione di bind, a quella originale di come mi è stato consegnato il vps, ma non è cambiato nulla.
    Non sò più che provare a cambiare per farlo funzionare. :mmm:


  • Moderatore

    In primo luogo assicurati che il nome di dominio venga risolto in tempi "umani".

    Dopo di che verifica quali processi avvia munin, se riesce ad avviarli correttamente e quali file usano.

    Verifica la configurazione soprattutto. Perchè cerca di connettersi a 127.0.0.1? E soprattutto il server munin è configurato per stare in ascolto su 127.0.0.1:4949?


  • ModSenior

    Facendo telnet 127.0.0.1 4949 ottengo la risposta corretta, come ho trovato dovrebbe essere nella documentazione di munin, per cui in ascolto sembra ci sia.

    Usando il comando munin-check per vedere se trova qualcosa che non và, trova dei problemi sui permessi:

    
    munin-check
    Check /var/cache/munin/www
    check /var/lib/munin/datafile
    check /var/lib/munin/limits
    check /var/lib/munin/localdomain
    check /var/lib/munin/munin-graph.stats
    check /var/lib/munin/munin-update.stats
    Check miscelaneous
    # /var/lib/munin/plugin-state : Wrong owner (munin != nobody)
    # /etc/munin/plugin-conf.d : Wrong permissions (750 != 755)
    Check done.  Please note that this script only checks most things,
    not all things.
    
    Please also note that this script is very new and may be buggy.
    
    

    Però è configurato per girare come munin:munin per cui non ho capito il nobody da dove stà saltando fuori.


  • Moderatore

    sembra un problema noto http://munin-monitoring.org/ticket/807


  • ModSenior

    Non credo sia quello perchè:

    
    root@server1:/var/lib/munin# ls -la
    total 68
    drwxr-xr-x  4 munin munin  4096 Mar 29 17:20 .
    drwxr-xr-x 37 root  root   4096 Mar 25 23:58 ..
    -rw-r--r--  1 munin munin 40201 Mar 29 17:20 datafile
    -rw-r--r--  1 munin munin   847 Mar 29 17:20 limits
    drwxr-xr-x  2 munin munin  4096 Mar 25 19:05 localdomain
    -rw-r--r--  1 munin munin   222 Mar 29 17:20 munin-graph.stats
    -rw-r--r--  1 munin munin    50 Mar 29 17:20 munin-update.stats
    drwxrwxr-x  2 munin munin  4096 Mar 25 19:05 plugin-state
    
    

    Quindi i permessi sono corretti credo, o no?
    Ho comunque impostato a 775 tutta la cartella come indicato nel link che mi hai dato.

    Ho appena controllato il grafico ed ha iniziato funzionare dalle ore 16 circa. Verso quell'ora avevo avviato il demone munin-node, che avevo visto non era avviato e con telnet inizialmente non rispondeva infatti. Non mi ero accorto che munin-node non si avvia automaticamente all'avvio, e quindi dopo l'ultimo riavvio che avevo fatto davo per scontato che continuasse ad essere in esecuzione.

    Grazie mille paolino per l'aiuto.