All,<br><br>If you&#39;re interested in proactively managing compute nodes&#39; health, I recommend that you check out this project. Our support team regularly recommends it to people getting started with node health check scripts and the results have been very positive. It makes it easy to do a lot of the most common checks that are important for node health checks, and it makes it easy to handle some of the common pitfalls (such as a node health checker that runs for too long).<br>
<br>David<br><br><div class="gmail_quote">On Wed, Nov 7, 2012 at 5:07 PM, Michael Jennings <span dir="ltr">&lt;<a href="mailto:mej@lbl.gov" target="_blank">mej@lbl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
In preparation for SC12, I&#39;ve released version 1.2.1 of Warewulf Node<br>
Health Check (NHC).<br>
<br>
Many thanks to Ole Holm Nielsen &lt;<a href="mailto:Ole.H.Nielsen@fysik.dtu.dk">Ole.H.Nielsen@fysik.dtu.dk</a>&gt; for his<br>
help with this release!<br>
<br>
The notes on this release are fairly short, so I&#39;ll include them here:<br>
 - Added logrotate script (from Ole)<br>
 - Added cron wrapper script (from Ole)<br>
 - Added NHC_AUTH_USERS variable for users allowed to run on node at<br>
   any time (used by check_ps_userproc_lineage and<br>
   check_ps_unauth_users).<br>
 - Fixed some bugs that prevented check_ps_unauth_users from finding<br>
   TORQUE job files properly and resolving long userids.<br>
 - Fixed bug where NHC mishandled nodes which were offlined with no<br>
   note by an operator.<br>
 - Updated online documentation regarding mismatch between hostname<br>
   and TORQUE nodename.<br>
<br>
<br>
I also wanted to mention that Jackie Scoggins and I will be doing a<br>
presentation at SuperComputing &#39;12 in the Adaptive Computing booth on<br>
Tuesday the 13th from 10:30-11:00.  Discussion of new features in the<br>
1.2 series will be included along with a brief overview of the<br>
features and syntax.  We hope to see many of you there!  :-)<br>
<span class="HOEnZb"><font color="#888888"><br>
Michael<br>
<br>
--<br>
Michael Jennings &lt;<a href="mailto:mej@lbl.gov">mej@lbl.gov</a>&gt;<br>
Senior HPC Systems Engineer<br>
High-Performance Computing Services<br>
Lawrence Berkeley National Laboratory<br>
Bldg 50B-3209E        W: <a href="tel:510-495-2687" value="+15104952687">510-495-2687</a><br>
MS 050B-3209          F: <a href="tel:510-486-8615" value="+15104868615">510-486-8615</a><br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</font></span></blockquote></div><br><br clear="all"><br>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div><br>