<div dir="ltr"><br><br><div class="gmail_quote">2009/5/11 Roger Moye <span dir="ltr">&lt;<a href="mailto:moye@rice.edu">moye@rice.edu</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
I have also found that the problem can be reproduced if we do &quot;qdel -p&quot;<br>
to purge a job that has exceeded the walltime but is stuck in the queue<br>
unable to exit.  If the pbs_mom on the compute node is still running and<br>
is still trying to kill the stuck job, it will continue to do so even<br>
after a successful &quot;qdel -p&quot; and will eventually crash the torque<br>
server.  To avoid this I always restart pbs_mom on the compute node<br>
after running &quot;qdel -p&quot;.  This resolves the problem.  So it would seem<br>
that there are circumstances where pbs_mom on the compute nodes is not<br>
aware that the job it is trying to kill is already gone and it keeps<br>
trying to kill it indefinitely.</blockquote><div><br>Roger,<br>
<br>
can&#39;t you use momctol -c job/all on the nodes that you want the job to be killed on before doing qdel -p?<br>
<br>
kind regards<br><br>Walid shaari<br></div></div><br></div>