<div dir="ltr">Kenneth,<div><br></div><div>4.1.7 is set for release on Wednesday, but 4.2.5 is out now and has both of these fixes.</div><div><br></div><div>David</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Mon, Sep 23, 2013 at 9:34 AM, Kenneth Hoste <span dir="ltr">&lt;<a href="mailto:kenneth.hoste@ugent.be" target="_blank">kenneth.hoste@ugent.be</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hello,<br>
<br>
We just got bit by this problem again, i.e. the MOM killing one of the processes of the job without any reason for it (nowhere need walltime or memory limits, MOM or server were not restarted at that point, ...).<br>
<br>
I can&#39;t find any trace of a possible reason in the pbs_server logs, and the MOM is just reporting this:<br>
<br>
&gt; 09/23/2013 15:50:48;0002;   pbs_mom.3350;Svr;pbs_mom;Torque Mom Version = 4.1.6, loglevel = 0<br>
&gt; 09/23/2013 15:55:48;0002;   pbs_mom.3350;Svr;pbs_mom;Torque Mom Version = 4.1.6, loglevel = 0<br>
&gt; 09/23/2013 15:58:37;0008;   pbs_mom.3350;Job;112871.master9.x.y.z;kill_task: killing pid 49500 task 1 gracefully with sig 15<br>
&gt; 09/23/2013 15:58:37;0008;   pbs_mom.3350;Job;112871.master9.x.y.z;kill_task: process (pid=49500/state=R) after sig 15<br>
&gt; 09/23/2013 15:58:37;0080;   pbs_mom.3350;Job;112871.master9.x.y.z;scan_for_terminated: job 112871.master9.x.y.z task 1 terminated, sid=49303<br>
&gt; 09/23/2013 15:58:37;0008;   pbs_mom.3350;Job;112871.master9.x.y.z;job was terminated<br>
<br>
<br>
In a previous mail (Aug 2nd 2013), I polled for an estimated date for Torque 4.1.7 that includes a bug fix for this, but didn&#39;t get a reply.<br>
<br>
It also strikes me as **very** surprising that there hasn&#39;t been a new release for neither Torque 4.1.x nor Torque 2.5.x<br>
that includes the fix for the (quite serious) security issue for which an advisory was sent out on Sept 6th 2013.<br>
<br>
So, is there an ETA for Torque 4.1.7, that would include a fix for this (and also for the security issue)?<br>
<br>
If not, can anyone please point out the commit ID for the additional fix that was added between 4.1.6 and the (future) 4.1.7?<br>
<br>
Please keep me/us in CC when replying, I&#39;m still having issues with receiving mail from this list,<br>
even though I&#39;m subscribed to it (can someone check whether I&#39;ve been blacklisted or somesuch?).<br>
<br>
<br>
regards,<br>
<br>
Kenneth<br>
<div class="im HOEnZb"><br>
<br>
On 01 Aug 2013, at 18:03, David Beer wrote:<br>
<br>
</div><div class="HOEnZb"><div class="h5">&gt; There have been two fixes for this issue:<br>
&gt;<br>
&gt; 1. Add more logging and checking to verify that the mother superior is rejecting the specified job. This fix went into 4.1.6/4.2.3 and resolved the problem for most users that reported it.<br>
&gt; 2. Have pbs_server remember when the mother superior has reported on the job and not abort for this reason if mother superior has reported the job to pbs_server in the last 180 seconds. This fix has been released with 4.2.4 and will be released with 4.1.7. Of the users I know of that were still experiencing this defect after 4.1.6 they are no longer experiencing it with this change in place.<br>

&gt;<br>
&gt; David<br>
&gt;<br>
&gt;<br>
&gt; On Thu, Aug 1, 2013 at 6:33 AM, Kenneth Hoste &lt;<a href="mailto:kenneth.hoste@ugent.be">kenneth.hoste@ugent.be</a>&gt; wrote:<br>
&gt; Was this problem ever resolved?<br>
&gt;<br>
&gt; I noticed through <a href="http://www.clusterresources.com/pipermail/torqueusers/2012-December/015352.html" target="_blank">http://www.clusterresources.com/pipermail/torqueusers/2012-December/015352.html</a> that David looked into this, but the archive doesn&#39;t show any further followup.<br>

&gt;<br>
&gt; It seems we&#39;re currently suffering from a very similar problem with the Torque v4.1.6...<br>
&gt;<br>
&gt;<br>
&gt; regards,<br>
&gt;<br>
&gt; Kenneth<br>
&gt;<br>
&gt; PS: Please keep me in CC when replying, for some reason I&#39;m no longer receiving mails from torqueusers@ even though I&#39;m subscribed...<br>
&gt;<br>
&gt;<br>
&gt; On 22 Nov 2012, at 16:46, Lech Nieroda wrote:<br>
&gt;<br>
&gt; &gt; Dear list,<br>
&gt; &gt;<br>
&gt; &gt; we have another serious problem since our upgrade to Torque 4.1.3. We<br>
&gt; &gt; are using it with Maui 3.3.1. The problem in a nutshell: some few,<br>
&gt; &gt; random jobs are suddenly &quot;unknown&quot; to the server, it changes their<br>
&gt; &gt; status to EXITING-SUBSTATE55 and requests a silent kill on the compute<br>
&gt; &gt; nodes. The job then dies, the processes are killed on the node, there is<br>
&gt; &gt; no &quot;Exit_status&quot; in the server-log, no entry in maui/stats, no<br>
&gt; &gt; stdout/stderr files. The users are, understandably, not amused.<br>
&gt; &gt;<br>
&gt; &gt; It doesn&#39;t seem to be user or application specific. Even a single<br>
&gt; &gt; instance from a job array can get blown away in this way while all other<br>
&gt; &gt; instances end normally.<br>
&gt; &gt;<br>
&gt; &gt; Here are some logs of such a job (681684[35]):<br>
&gt; &gt;<br>
&gt; &gt; maui just assumes a successful completion:<br>
&gt; &gt; [snip]<br>
&gt; &gt; 11/21 19:24:49 MPBSJobUpdate(681684[35],681684[35].cheops10,TaskList,0)<br>
&gt; &gt; 11/21 19:24:49 INFO: Average nodespeed for Job 681684[35] is  1.000000,<br>
&gt; &gt; 1.000000, 1<br>
&gt; &gt; 11/21 19:25:55 INFO:     active PBS job 681684[35] has been removed from<br>
&gt; &gt; the queue.  assuming successful completion<br>
&gt; &gt; 11/21 19:25:55 MJobProcessCompleted(681684[35])<br>
&gt; &gt; 11/21 19:25:55 INFO:     job &#39;681684[35]&#39; completed  X: 0.063356  T:<br>
&gt; &gt; 10903  PS: 10903  A: 0.063096<br>
&gt; &gt; 11/21 19:25:55 MJobSendFB(681684[35])<br>
&gt; &gt; 11/21 19:25:55 INFO:     job usage sent for job &#39;681684[35]&#39;<br>
&gt; &gt; 11/21 19:25:55 MJobRemove(681684[35])<br>
&gt; &gt; 11/21 19:25:55 MJobDestroy(681684[35])<br>
&gt; &gt; [snap]<br>
&gt; &gt;<br>
&gt; &gt; pbs_server decides at 19:25:11, after 3 hours runtime, that the job is<br>
&gt; &gt; unknown (grepped by JobID from the server logs):<br>
&gt; &gt; [snip]<br>
&gt; &gt; 11/21/2012<br>
&gt; &gt; 16:23:43;0008;PBS_Server.26038;Job;svr_setjobstate;svr_setjobstate:<br>
&gt; &gt; setting job 681684[35].cheops10 state from RUNNING-TRNOUTCM to<br>
&gt; &gt; RUNNING-RUNNING (4-42)<br>
&gt; &gt; 11/21/2012<br>
&gt; &gt; 19:25:11;0008;PBS_Server.26097;Job;svr_setjobstate;svr_setjobstate:<br>
&gt; &gt; setting job 681684[35].cheops10 state from RUNNING-RUNNING to<br>
&gt; &gt; QUEUED-SUBSTATE55 (1-55)<br>
&gt; &gt; 11/21/2012<br>
&gt; &gt; 19:25:11;0008;PBS_Server.26097;Job;svr_setjobstate;svr_setjobstate:<br>
&gt; &gt; setting job 681684[35].cheops10 state from QUEUED-SUBSTATE55 to<br>
&gt; &gt; EXITING-SUBSTATE55 (5-55)<br>
&gt; &gt; 11/21/2012<br>
&gt; &gt; 19:25:11;0100;PBS_Server.26097;Job;681684[35].cheops10;dequeuing from<br>
&gt; &gt; smp, state EXITING<br>
&gt; &gt; 11/21/2012<br>
&gt; &gt; 19:25:14;0001;PBS_Server.26122;Svr;PBS_Server;LOG_ERROR::kill_job_on_mom, stray<br>
&gt; &gt; job 681684[35].cheops10 found on cheops21316<br>
&gt; &gt; [snap]<br>
&gt; &gt;<br>
&gt; &gt; pbs_client just kills the processes:<br>
&gt; &gt; [snip]<br>
&gt; &gt; 11/21/2012 16:23:43;0001;   pbs_mom.32254;Job;TMomFinalizeJob3;job<br>
&gt; &gt; 681684[35].cheops10 started, pid = 17452<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: killing pid 17452 task<br>
&gt; &gt; 1 gracefully with sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: process<br>
&gt; &gt; (pid=17452/state=R) after sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: process<br>
&gt; &gt; (pid=17452/state=Z) after sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: killing pid 17692 task<br>
&gt; &gt; 1 gracefully with sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: process<br>
&gt; &gt; (pid=17692/state=R) after sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: killing pid 17703 task<br>
&gt; &gt; 1 gracefully with sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: process<br>
&gt; &gt; (pid=17703/state=R) after sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: killing pid 17731 task<br>
&gt; &gt; 1 gracefully with sig 15<br>
&gt; &gt; 11/21/2012 19:25:14;0008;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;kill_task: process<br>
&gt; &gt; (pid=17731/state=R) after sig 15<br>
&gt; &gt; 11/21/2012 19:25:15;0080;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;scan_for_terminated: job<br>
&gt; &gt; 681684[35].cheops10 task 1 terminated, sid=17452<br>
&gt; &gt; 11/21/2012 19:25:15;0008;   pbs_mom.32254;Job;681684[35].cheops10;job<br>
&gt; &gt; was terminated<br>
&gt; &gt; 11/21/2012 19:25:50;0001;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;preobit_reply, unknown on server,<br>
&gt; &gt; deleting locally<br>
&gt; &gt; 11/21/2012 19:25:50;0080;<br>
&gt; &gt; pbs_mom.32254;Job;681684[35].cheops10;removed job script<br>
&gt; &gt; [snap]<br>
&gt; &gt;<br>
&gt; &gt; Sometimes, the pbs_mom logs include this message before the killing starts:<br>
&gt; &gt; [snip]<br>
&gt; &gt; Req;req_reject;Reject reply code=15001(Unknown Job Id Error), aux=0,<br>
&gt; &gt; type=StatusJob, from PBS_Server@cheops10<br>
&gt; &gt; [snap]<br>
&gt; &gt;<br>
&gt; &gt; And finally, some job informations given to epilogue:<br>
&gt; &gt; [snip]<br>
&gt; &gt; Nov 21 19:25:15 s_sys@cheops21316 epilogue.shared:<br>
&gt; &gt; 681684[35].cheops10,hthiele0,cheops21316,Starting shared epilogue<br>
&gt; &gt; Nov 21 19:25:15 s_sys@cheops21316 epilogue.shared:<br>
&gt; &gt; 681684[35].cheops10,hthiele0,cheops21316,Job Information:<br>
&gt; &gt; userid=hthiele0,<br>
&gt; &gt; resourcelist=&#39;mem=5gb,ncpus=1,neednodes=1:ppn=1,nodes=1:ppn=1,walltime=48:00:00&#39;,<br>
&gt; &gt; resourcesused=&#39;cput=03:00:46,mem=945160kb,vmem=1368548kb,walltime=03:01:34&#39;,<br>
&gt; &gt; queue=smp, account=ccg-ngs, exitcode=271<br>
&gt; &gt; [snap]<br>
&gt; &gt;<br>
&gt; &gt; This happens rarely (about 1 in 3000). However, silent deletions of<br>
&gt; &gt; random jobs aren&#39;t exactly a trifling matter.<br>
&gt; &gt; I could try to disable the mom_job_sync option, which could perhaps<br>
&gt; &gt; prevent the process killing of unknown jobs, but it would also leave<br>
&gt; &gt; corrupt/pre-execution jobs alive.<br>
&gt; &gt;<br>
&gt; &gt; Can this be fixed?<br>
&gt; &gt;<br>
&gt; &gt; On a side-note, here are some further, minor Bugs I&#39;ve noticed in the<br>
&gt; &gt; Torque 4.1.3. Version:<br>
&gt; &gt; - the epilogue script is usually invoked twice and sometimes even<br>
&gt; &gt; several times<br>
&gt; &gt; - when explicit node lists are used, e.g. nodes=node1:ppn=2+node2:ppn=2,<br>
&gt; &gt; then the number of &quot;tasks&quot; as seen by qstat is zero<br>
&gt; &gt; - there have been some API changes between Torque 2.x and Torque 4.x, so<br>
&gt; &gt; that two maui calls had to be altered in order to build against Torque<br>
&gt; &gt; 4.x (get_svrport, openrm).<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; Regards,<br>
&gt; &gt; Lech Nieroda<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Dipl.-Wirt.-Inf. Lech Nieroda<br>
&gt; &gt; Regionales Rechenzentrum der Universität zu Köln (RRZK)<br>
&gt; &gt; Universität zu Köln<br>
&gt; &gt; Weyertal 121<br>
&gt; &gt; Raum 309 (3. Etage)<br>
&gt; &gt; D-50931 Köln<br>
&gt; &gt; Deutschland<br>
&gt; &gt;<br>
&gt; &gt; Tel.: +49 (221) 470-89606<br>
&gt; &gt; E-Mail: <a href="mailto:nieroda.lech@uni-koeln.de">nieroda.lech@uni-koeln.de</a><br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; torqueusers mailing list<br>
&gt; &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; David Beer | Senior Software Engineer<br>
&gt; Adaptive Computing<br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>