<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi<div><br></div><div>The CPU load was near 0, and no health check scripts that I know of. ps didn't show any abnormal processes.</div><div><br></div><div>In the end, putting the 2 nodes offline, shutting them down, restarting pbs_server, and restarting the nodes fixed it.&nbsp;</div><div><br></div><div>Cheers,</div><div>Tony</div><div><br></div><div><div><div><div>On Apr 29, 2009, at 3:21 PM, rishi pathak wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">What is the cpu load on those nodes. Any node health check scripts running. What is their output.<br><br><div class="gmail_quote">On Wed, Apr 29, 2009 at 12:58 AM, Tony Schreiner <span dir="ltr">&lt;<a href="mailto:schreian@bc.edu">schreian@bc.edu</a>></span> wrote:<br> <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im"><br> On Apr 28, 2009, at 3:17 PM, Tony Schreiner wrote:<br> <br> > On a cluster of 62 nodes, with torque 2.1.10 and maui 3.2.6p19<br> ><br> > overnight 2 nodes have stopped accepting jobs<br> ><br> > partial pestat output<br> ><br> > &nbsp; node40 &nbsp;free &nbsp;0.00 &nbsp; &nbsp;7879 &nbsp; 4 &nbsp;16069 &nbsp; &nbsp;231 &nbsp;0/0 &nbsp; &nbsp;0<br> > &nbsp; node41 &nbsp;free &nbsp;0.00 &nbsp; &nbsp;8067 &nbsp; 4 &nbsp;16257 &nbsp; &nbsp;228 &nbsp;0/0 &nbsp; &nbsp;0<br> > &nbsp; node42 &nbsp;free &nbsp;0.00* &nbsp;56481 &nbsp; 8 &nbsp;58465 &nbsp; &nbsp;269 &nbsp;0/0 &nbsp; 88<br> > &nbsp; node43 &nbsp;excl &nbsp;8.22 &nbsp; 64561 &nbsp; 8 &nbsp;66545 &nbsp;22975 &nbsp;1/1 &nbsp; &nbsp;8 &nbsp; &nbsp;156354<br> > mikaels<br> > &nbsp; node44 &nbsp;free &nbsp;0.11* &nbsp;64561 &nbsp; 8 &nbsp;66545 &nbsp; &nbsp;267 &nbsp;0/0 &nbsp; 64<br> > &nbsp; node45 &nbsp;excl &nbsp;8.07 &nbsp; 64561 &nbsp; 8 &nbsp;66545 &nbsp;21408 &nbsp;1/1 &nbsp; &nbsp;8 &nbsp; &nbsp;156060<br> > NONE* 156227<br> ><br> > there are jobs in the queue and get submitted to other nodes but not<br> > to node42 and node44.<br> > node40 and node41 are not eligible for the queue being run so it's ok<br> > that they have no jobs.<br> ><br> > Please note the last column on those 2 nodes which is the "tasks"<br> > parameter and is non-zero<br> ><br> > I have restarted pbs_mom on the nodes, also done &nbsp;momctl -C and momctl<br> > -c all on those nodes.<br> > There is nothing in the mom_priv directory associated with any job.<br> ><br> <br> <br> </div>If I may add one more thing.<br> An attempt to force a job to run on the node with qrun -H node42 JOBID<br> <br> gives the following error<br> qrun: Resource temporarily unavailable REJHOST=node42 MSG=cannot<br> allocate node 'node42' to job - node not currently available (nps<br> needed/free: 1/0, &nbsp;joblist: <a href="http://l.bc.edu" target="_blank">l.bc.edu</a> 2.6.27.21-170.2.56.fc10.x86_64<br> #1 ....<br> <div><div></div><div class="h5">_______________________________________________<br> torqueusers mailing list<br> <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br> <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br> </div></div></blockquote></div><br><br clear="all"><br>-- <br>Regards--<br>Rishi Pathak<br>Pune-Maharastra<br></blockquote></div><br></div></div></body></html>