Garrick,<br><br>we are using 2.1.6, and 2.1.8 and we do see the problem Peter is seeing, users with operators rights can not delete the job unless we do with qdel -p and clean up after&nbsp; the nodes.<br><br>regards<br><br>Walid
<br><br><div><span class="gmail_quote">On 7/10/07, <b class="gmail_sendername">Garrick Staples</b> &lt;<a href="mailto:garrick@clusterresources.com">garrick@clusterresources.com</a>&gt; wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
On Mon, Jul 02, 2007 at 11:30:48PM -0700, Peter Wyckoff alleged:<br>&gt;<br>&gt; I&#39;m seeing that Torque doesn&#39;t seem to allow a job to be killed until all<br>&gt; the nodes it started on can confirm the job was killed. If some nodes fail
<br>&gt; while killing the job or if we happened to modify torque to ignore failed<br>&gt; nodes, the system won&#39;t release those resources.<br>&gt;<br>&gt; Is there a way to tell Torque to kill jobs on a kind of best effort basis -
<br>&gt; i.e., all nodes it can talk to, but assume the best for nodes that are down.<br>&gt; As we can configure torque to start the pbs_mom&#39;s w/o restarting active<br>&gt; jobs.<br>&gt;<br>&gt; We have a big installation and some long running jobs, so this is a real
<br>&gt; problem for us - just about daily.<br><br>Torque definitely kills jobs when sister nodes are down.&nbsp;&nbsp;It happens<br>over here all the time.<br><br>_______________________________________________<br>torqueusers mailing list
<br><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br><a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br></blockquote>
</div><br>