What is the cpu load on those nodes. Any node health check scripts running. What is their output.<br><br><div class="gmail_quote">On Wed, Apr 29, 2009 at 12:58 AM, Tony Schreiner <span dir="ltr">&lt;<a href="mailto:schreian@bc.edu">schreian@bc.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im"><br>
On Apr 28, 2009, at 3:17 PM, Tony Schreiner wrote:<br>
<br>
&gt; On a cluster of 62 nodes, with torque 2.1.10 and maui 3.2.6p19<br>
&gt;<br>
&gt; overnight 2 nodes have stopped accepting jobs<br>
&gt;<br>
&gt; partial pestat output<br>
&gt;<br>
&gt;   node40  free  0.00    7879   4  16069    231  0/0    0<br>
&gt;   node41  free  0.00    8067   4  16257    228  0/0    0<br>
&gt;   node42  free  0.00*  56481   8  58465    269  0/0   88<br>
&gt;   node43  excl  8.22   64561   8  66545  22975  1/1    8    156354<br>
&gt; mikaels<br>
&gt;   node44  free  0.11*  64561   8  66545    267  0/0   64<br>
&gt;   node45  excl  8.07   64561   8  66545  21408  1/1    8    156060<br>
&gt; NONE* 156227<br>
&gt;<br>
&gt; there are jobs in the queue and get submitted to other nodes but not<br>
&gt; to node42 and node44.<br>
&gt; node40 and node41 are not eligible for the queue being run so it&#39;s ok<br>
&gt; that they have no jobs.<br>
&gt;<br>
&gt; Please note the last column on those 2 nodes which is the &quot;tasks&quot;<br>
&gt; parameter and is non-zero<br>
&gt;<br>
&gt; I have restarted pbs_mom on the nodes, also done  momctl -C and momctl<br>
&gt; -c all on those nodes.<br>
&gt; There is nothing in the mom_priv directory associated with any job.<br>
&gt;<br>
<br>
<br>
</div>If I may add one more thing.<br>
An attempt to force a job to run on the node with qrun -H node42 JOBID<br>
<br>
gives the following error<br>
qrun: Resource temporarily unavailable REJHOST=node42 MSG=cannot<br>
allocate node &#39;node42&#39; to job - node not currently available (nps<br>
needed/free: 1/0,  joblist: <a href="http://l.bc.edu" target="_blank">l.bc.edu</a> 2.6.27.21-170.2.56.fc10.x86_64<br>
#1 ....<br>
<div><div></div><div class="h5">_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Regards--<br>Rishi Pathak<br>Pune-Maharastra<br>