<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi,<div><br></div><div><div><div>I run daily (via cron) 'momctl -d2 -h $wn', in order to detect jobs that have got stuck. The torque server runs the version 2.3.8 of Torque/Maui under CentOS 5.4. I wrote a small script that detects those jobs that wouldn't be cleared automatically by the Torque server and clears them with 'momctl -h $wn -c $job_id'. So far I've seen that those kind of jobs have 'state' set to either PREOBIT or EXITED. In the first case (First example below) a SIGKILL signal is sent eventually by the torque server, the script detects this after running 'tracejob -n 30 -q $job_id' and clears the job via momctl, in the second case (2nd and 3rd example below) I've tried several times to clear the jobs via momctl without success.</div><div><br></div><div>After talking to some colleagues a solution would be to stop the mom, to remove the related files inside /var/spool/pbs/, to remove the related files in /tmp/jobdir and start the mom; but it would be great to find a better solution as the system is in production. By the way, all these jobs are not in the queue anymore, so I cannot use qdel.</div><div><br></div><div>So my questions are:</div><div><br></div><div>&nbsp;&nbsp; &nbsp;1.- Is there any alternative strategy to clear the jobs, besides via momctl and mom restarting?</div><div>&nbsp;&nbsp; &nbsp;2.- Are there other examples/cases where the jobs get stuck? If yes, what is the strategy to clear them?</div><div><br></div><div>If more information is required, please let me know.</div><div><br></div><div>Cheers,</div><div>Paco.</div><div><br></div><div><br></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Host:&nbsp;&lt;WORKER_NODE&gt;</span></font><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Version: 2.3.8&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">PID: 21542&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Server[0]:&nbsp;&lt;TORQUE_SERVER&gt;</span></font><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">&nbsp;(&lt;IP&gt;:15001)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Init Msgs Received: 0 hellos/1 cluster-addrs&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Init Msgs Sent: 1 hellos&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Last Msg From Server: 15 seconds (StatusJob)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Last Msg To Server: 22 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">HomeDirectory: /var/spool/pbs/mom_priv stdout/stderr spool directory: '/var/spool/pbs/spool/' (1109151 blocks available)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">MOM active: 1244335 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Check Poll Time: 45 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Server Update Interval: 45 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">LogLevel: 0 (use SIGUSR1/SIGUSR2 to adjust)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Communication Model: RPP&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">MemLocked: TRUE (mlock)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">TCP Timeout: 20 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Prolog: /var/spool/pbs/mom_priv/prologue (disabled)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Alarm Time: 0 of 10 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Trusted Client List: &lt;LIST&gt;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Copy Command: /usr/bin/scp -rpB&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3657754.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=29714&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3659174.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=14994&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3662531.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=10682&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3665186.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=30058&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3665605.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=26822&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3666248.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=31058&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[3667022.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=8774&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><b>job[3667269.&lt;TORQUE_SERVER&gt;] state=PREOBIT sidlist=&nbsp;</b></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Assigned CPU Count: 8 diagnostics complete</span></font></div><div><br class="webkit-block-placeholder"></div><div><br></div><div><br></div><div><br></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Host:&nbsp;&lt;WORKER_NODE&gt;</span></font><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Version: 2.3.8&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">PID: 1036&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Server[0]:&nbsp;</span></font><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">&lt;TORQUE_SERVER&gt;&nbsp;(&lt;IP&gt;:15001)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Init Msgs Received: 0 hellos/1 cluster-addrs&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Init Msgs Sent: 1 hellos&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><b>WARNING: invalid attempt to connect from server 127.0.0.1:1021 (request corrupt)&nbsp;</b></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Last Msg From Server: 66 seconds (StatusJob)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Last Msg To Server: 12 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">HomeDirectory: /var/spool/pbs/mom_priv stdout/stderr spool directory: '/var/spool/pbs/spool/' (1803724 blocks available)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">MOM active: 2704397 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Check Poll Time: 45 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Server Update Interval: 45 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">LogLevel: 0 (use SIGUSR1/SIGUSR2 to adjust)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Communication Model: RPP&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">MemLocked: TRUE (mlock)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">TCP Timeout: 20 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Prolog: /var/spool/pbs/mom_priv/prologue (disabled)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Alarm Time: 0 of 10 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Trusted Client List: &lt;LIST&gt;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Copy Command: /usr/bin/scp -rpB&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><b>job[3968121.stro.nikhef.nl] state=EXITED sidlist=&nbsp;</b></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[4433586.stro.nikhef.nl] state=RUNNING sidlist=5873&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[4435775.stro.nikhef.nl] state=RUNNING sidlist=19862&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Assigned CPU Count: 3 diagnostics complete</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Host:&nbsp;&lt;WORKER_NODE&gt;</span></font><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Version: 2.3.8&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">PID: 8134&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Server[0]:&nbsp;</span></font><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">&lt;TORQUE_SERVER&gt;&nbsp;(&lt;IP&gt;:15001)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Init Msgs Received: 0 hellos/1 cluster-addrs&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Init Msgs Sent: 1 hellos&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Last Msg From Server: 90 seconds (ModifyJob)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Last Msg To Server: 38 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">HomeDirectory: /var/spool/pbs/mom_priv stdout/stderr spool directory: '/var/spool/pbs/spool/' (1800265 blocks available)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">MOM active: 2704367 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Check Poll Time: 45 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Server Update Interval: 45 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">LogLevel: 0 (use SIGUSR1/SIGUSR2 to adjust)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Communication Model: RPP&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">MemLocked: TRUE (mlock)&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">TCP Timeout: 20 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Prolog: /var/spool/pbs/mom_priv/prologue (disabled) Alarm Time: 0 of 10 seconds&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Trusted Client List: &lt;LIST&gt;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Copy Command: /usr/bin/scp -rpB&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;"><b>job[3968769.&lt;TORQUE_SERVER&gt;] state=EXITED sidlist=&nbsp;</b></span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[4442748.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=7387&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">job[4462579.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=30248&nbsp;</span></font></div><div><font class="Apple-style-span" face="'Courier New'" size="3"><span class="Apple-style-span" style="font-size: 12px;">Assigned CPU Count: 3 diagnostics complete</span></font></div><div><br></div><div><br></div><div><br></div><div><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">============================================<br>F.J. Bernabé Pellicer<div><br>Nikhef, Dutch National Institute for Sub-atomic Physics<br>Group Computer Technology<br>Room: H154<br>Phone: +31 20 592 2185<br>Science Park 105<br>1098 XG Amsterdam<br><div>The Netherlands</div></div></div></span></span>
</div>
<br></div></div></body></html>