<HTML dir=ltr><HEAD><TITLE>Re: [torqueusers] qdel will not delete</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText58623 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>I've only seen this problem when some of the nodes allocated to the job are unresponsive (either because they've crashed, or, for instance, they're so overloaded they're functionally crippled and unresponsive).&nbsp; </FONT><FONT face=Arial size=2>When the unresponsive node is able to be communicated with by the mom, then the job will be able to exit (unless you force it as Steve mentions below).</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> torqueusers-bounces@supercluster.org on behalf of Steve Young<BR><B>Sent:</B> Thu 12/11/2008 2:02 PM<BR><B>To:</B> Rahul Nabar<BR><B>Cc:</B> torqueusers@supercluster.org<BR><B>Subject:</B> Re: [torqueusers] qdel will not delete<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>Usually when this happens qdel -p &lt;job id&gt; will remove the job from&nbsp;<BR>the queue if a normal qdel won't do it. >From the qdel man page:<BR><BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -p&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Forcibly purge the job from the server.&nbsp; This&nbsp;<BR>should only be used if a running job will not exit because its&nbsp;<BR>allocated nodes are&nbsp; unreachable.&nbsp;&nbsp; The&nbsp; admin<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; should make every attempt at resolving the&nbsp;<BR>problem on the nodes.&nbsp; If a job&#8217;s mother superior recovers after&nbsp;<BR>purging the job, any epilogue scripts may still<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; run.&nbsp; This option is only available to a batch&nbsp;<BR>operator or the batch administrator.<BR><BR>Hope this helps,<BR><BR>-Steve<BR><BR>On Dec 11, 2008, at 1:47 PM, Rahul Nabar wrote:<BR><BR>&gt; I've had jobs that won't respond to qdel once every so often. Their<BR>&gt; "REMAINING-time" on MAUI then becomes negative which was initially<BR>&gt; confusing since I thought it was a MAUI bug.<BR>&gt;<BR>&gt; But the root-cause seems to be that PBS will not obey the qdel on this<BR>&gt; job. Irrespective of whether I issue it as root or MAUI issues it.<BR>&gt;<BR>&gt; I had one such job today and I debugged it more:&nbsp; All the sub-nodes<BR>&gt; seemed to be up. the mom daemon on each one of these nodes seemed to<BR>&gt; be up and running.<BR>&gt;<BR>&gt; The mom_log on the master node though was interesting; It had this&nbsp;<BR>&gt; snippet:<BR>&gt;<BR>&gt; 12/11/2008 11:47:38;0002;&nbsp;&nbsp; pbs_mom;Svr;im_request;connect from&nbsp;<BR>&gt; 11.0.1.79:1023<BR>&gt; 12/11/2008 11:47:38;0008;<BR>&gt; pbs_mom;Job;233139.supernova.che.wisc.edu;received request 'KILL_JOB'<BR>&gt; from 11.0.1.79:1023<BR>&gt; 12/11/2008 11:47:38;0008;<BR>&gt; pbs_mom;Job;233139.supernova.che.wisc.edu;ERROR:&nbsp;&nbsp;&nbsp; received request<BR>&gt; 'KILL_JOB' from 11.0.1.79:1023 for job '233139.supernova.che.wisc.edu'<BR>&gt; (job does not exist locally)<BR>&gt;<BR>&gt; The only way I could get this job to delete was to restart the pbs_mom<BR>&gt; on that node.<BR>&gt;<BR>&gt; Anyone else who has encountered these symptoms? For me the first clue<BR>&gt; was a negative "REMAINING-time" on MAUI and users who complained that<BR>&gt; they could not qdel a job. In the past I've achieved the same effect<BR>&gt; by removing the relevant foo.supe.JB&nbsp; and foo.supe.SC&nbsp; files from the<BR>&gt; /var/spool/torque/server_priv/jobs on the master node.<BR>&gt; But I don't think that is the best way out. I'd appreciate any other<BR>&gt; debug suggestions as well.<BR>&gt;<BR>&gt; --<BR>&gt; Rahul<BR>&gt; _______________________________________________<BR>&gt; torqueusers mailing list<BR>&gt; torqueusers@supercluster.org<BR>&gt; <A href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</A><BR><BR>_______________________________________________<BR>torqueusers mailing list<BR>torqueusers@supercluster.org<BR><A href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</A><BR></FONT></P></DIV></BODY></HTML>