<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi Marvin,<div><br></div><div>I couldn't do that, as it's a heavily loaded production system, so there are jobs coming to the WNs all the time. I would need a solution that affected only the stale jobs and not the entire worker node.</div><div><br></div><div>Cheers,</div><div>Paco.</div><div><br><div><div>On Apr 15, 2010, at 3:12 PM, Marvin Novaglobal wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">Hi Paco,<div>&nbsp;&nbsp; &nbsp;You're right. It is always safer to set the node to offline state before clearing all stale jobs. In my case though, I just make sure there is no registered job in the execution node at server side then I clear all the stale jobs.</div>
<div><br></div><div><br></div><div>Regards,</div><div>Marvin</div><div><br><br><div class="gmail_quote">On Wed, Apr 14, 2010 at 5:03 PM, Paco Bernabé <span dir="ltr">&lt;<a href="mailto:fbernabe@nikhef.nl">fbernabe@nikhef.nl</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div style="word-wrap:break-word">Hi Marvin,<div><br></div><div>Thanks for your reply, this actually works; but in order to execute 'momctl -h $wn -c all', I have to set to 'offline' the node in advance, so that no new jobs come into the node. Do you know possible reasons for the jobs to get stuck when the status is EXITED? Anything relevant that I could find in the log files? Is there any other strategy that doesn't require to set the node to offline?</div>
<div><br></div><div>Thanks,</div><div>Paco.</div><div><div></div><div class="h5"><div><br></div><div><br></div><div><div><div>On Apr 14, 2010, at 8:01 AM, Marvin Novaglobal wrote:</div><br><blockquote type="cite">Hi,<div>
&nbsp;&nbsp; &nbsp;Perhaps you can use 'pbsnodes $wn' and grep whether there is a registered job running on current compute node. Then, use 'momctl -c ALL' to clear all the stale jobs if there is no running job registered on the pbs_server side. Optionally, you can recycle the pbs_mom as well. So far, it has served us well.</div>

<div><br></div><div><br></div><div>Regards,</div><div>Marvin</div><div><br><br><div class="gmail_quote">On Tue, Apr 13, 2010 at 10:01 PM, Paco Bernabé <span dir="ltr">&lt;<a href="mailto:fbernabe@nikhef.nl" target="_blank">fbernabe@nikhef.nl</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">Hi,<div><br></div><div><div><div>I run daily (via cron) 'momctl -d2 -h $wn', in order to detect jobs that have got stuck. The torque server runs the version 2.3.8 of Torque/Maui under CentOS 5.4. I wrote a small script that detects those jobs that wouldn't be cleared automatically by the Torque server and clears them with 'momctl -h $wn -c $job_id'. So far I've seen that those kind of jobs have 'state' set to either PREOBIT or EXITED. In the first case (First example below) a SIGKILL signal is sent eventually by the torque server, the script detects this after running 'tracejob -n 30 -q $job_id' and clears the job via momctl, in the second case (2nd and 3rd example below) I've tried several times to clear the jobs via momctl without success.</div>

<div><br></div><div>After talking to some colleagues a solution would be to stop the mom, to remove the related files inside /var/spool/pbs/, to remove the related files in /tmp/jobdir and start the mom; but it would be great to find a better solution as the system is in production. By the way, all these jobs are not in the queue anymore, so I cannot use qdel.</div>

<div><br></div><div>So my questions are:</div><div><br></div><div>&nbsp;&nbsp; &nbsp;1.- Is there any alternative strategy to clear the jobs, besides via momctl and mom restarting?</div><div>&nbsp;&nbsp; &nbsp;2.- Are there other examples/cases where the jobs get stuck? If yes, what is the strategy to clear them?</div>

<div><br></div><div>If more information is required, please let me know.</div><div><br></div><div>Cheers,</div><div>Paco.</div><div><br></div><div><br></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Host:&nbsp;&lt;WORKER_NODE&gt;</span></font><font face="'Courier New'" size="3"><span style="font-size:12px">&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Version: 2.3.8&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">PID: 21542&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Server[0]:&nbsp;&lt;TORQUE_SERVER&gt;</span></font><font face="'Courier New'" size="3"><span style="font-size:12px">&nbsp;(&lt;IP&gt;:15001)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Init Msgs Received: 0 hellos/1 cluster-addrs&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Init Msgs Sent: 1 hellos&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Last Msg From Server: 15 seconds (StatusJob)&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Last Msg To Server: 22 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">HomeDirectory: /var/spool/pbs/mom_priv stdout/stderr spool directory: '/var/spool/pbs/spool/' (1109151 blocks available)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">MOM active: 1244335 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Check Poll Time: 45 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Server Update Interval: 45 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">LogLevel: 0 (use SIGUSR1/SIGUSR2 to adjust)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Communication Model: RPP&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">MemLocked: TRUE (mlock)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">TCP Timeout: 20 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Prolog: /var/spool/pbs/mom_priv/prologue (disabled)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Alarm Time: 0 of 10 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Trusted Client List: &lt;LIST&gt;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Copy Command: /usr/bin/scp -rpB&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3657754.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=29714&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3659174.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=14994&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3662531.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=10682&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3665186.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=30058&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3665605.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=26822&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3666248.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=31058&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">job[3667022.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=8774&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px"><b>job[3667269.&lt;TORQUE_SERVER&gt;] state=PREOBIT sidlist=&nbsp;</b></span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Assigned CPU Count: 8 diagnostics complete</span></font></div>

<div><br></div><div><br></div><div><br></div><div><br></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Host:&nbsp;&lt;WORKER_NODE&gt;</span></font><font face="'Courier New'" size="3"><span style="font-size:12px">&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Version: 2.3.8&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">PID: 1036&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Server[0]:&nbsp;</span></font><font face="'Courier New'" size="3"><span style="font-size:12px">&lt;TORQUE_SERVER&gt;&nbsp;(&lt;IP&gt;:15001)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Init Msgs Received: 0 hellos/1 cluster-addrs&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Init Msgs Sent: 1 hellos&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px"><b>WARNING: invalid attempt to connect from server <a href="http://127.0.0.1:1021/" target="_blank">127.0.0.1:1021</a> (request corrupt)&nbsp;</b></span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Last Msg From Server: 66 seconds (StatusJob)&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Last Msg To Server: 12 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">HomeDirectory: /var/spool/pbs/mom_priv stdout/stderr spool directory: '/var/spool/pbs/spool/' (1803724 blocks available)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">MOM active: 2704397 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Check Poll Time: 45 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Server Update Interval: 45 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">LogLevel: 0 (use SIGUSR1/SIGUSR2 to adjust)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Communication Model: RPP&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">MemLocked: TRUE (mlock)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">TCP Timeout: 20 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Prolog: /var/spool/pbs/mom_priv/prologue (disabled)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Alarm Time: 0 of 10 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Trusted Client List: &lt;LIST&gt;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Copy Command: /usr/bin/scp -rpB&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px"><b>job[<a href="http://3968121.stro.nikhef.nl/" target="_blank">3968121.stro.nikhef.nl</a>] state=EXITED sidlist=&nbsp;</b></span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">job[<a href="http://4433586.stro.nikhef.nl/" target="_blank">4433586.stro.nikhef.nl</a>] state=RUNNING sidlist=5873&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">job[<a href="http://4435775.stro.nikhef.nl/" target="_blank">4435775.stro.nikhef.nl</a>] state=RUNNING sidlist=19862&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Assigned CPU Count: 3 diagnostics complete</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px"><br>

</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px"><br></span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px"><br></span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px"><br></span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Host:&nbsp;&lt;WORKER_NODE&gt;</span></font><font face="'Courier New'" size="3"><span style="font-size:12px">&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Version: 2.3.8&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">PID: 8134&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Server[0]:&nbsp;</span></font><font face="'Courier New'" size="3"><span style="font-size:12px">&lt;TORQUE_SERVER&gt;&nbsp;(&lt;IP&gt;:15001)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Init Msgs Received: 0 hellos/1 cluster-addrs&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Init Msgs Sent: 1 hellos&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Last Msg From Server: 90 seconds (ModifyJob)&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Last Msg To Server: 38 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">HomeDirectory: /var/spool/pbs/mom_priv stdout/stderr spool directory: '/var/spool/pbs/spool/' (1800265 blocks available)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">MOM active: 2704367 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Check Poll Time: 45 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Server Update Interval: 45 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">LogLevel: 0 (use SIGUSR1/SIGUSR2 to adjust)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Communication Model: RPP&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">MemLocked: TRUE (mlock)&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">TCP Timeout: 20 seconds&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Prolog: /var/spool/pbs/mom_priv/prologue (disabled) Alarm Time: 0 of 10 seconds&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">Trusted Client List: &lt;LIST&gt;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Copy Command: /usr/bin/scp -rpB&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px"><b>job[3968769.&lt;TORQUE_SERVER&gt;] state=EXITED sidlist=&nbsp;</b></span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">job[4442748.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=7387&nbsp;</span></font></div>

<div><font face="'Courier New'" size="3"><span style="font-size:12px">job[4462579.&lt;TORQUE_SERVER&gt;] state=RUNNING sidlist=30248&nbsp;</span></font></div><div><font face="'Courier New'" size="3"><span style="font-size:12px">Assigned CPU Count: 3 diagnostics complete</span></font></div>

<div><br></div><div><br></div><div><br></div><div><span style="border-collapse:separate;color:rgb(0, 0, 0);font-family:Helvetica;font-size:medium;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:auto;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><span style="border-collapse:separate;color:rgb(0, 0, 0);font-family:Helvetica;font-size:medium;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><div style="word-wrap:break-word">

============================================<br>F.J. Bernabé Pellicer<div><br>Nikhef, Dutch National Institute for Sub-atomic Physics<br>Group Computer Technology<br>Room: H154<br>Phone: +31 20 592 2185<br>Science Park 105<br>

1098 XG Amsterdam<br><div>The Netherlands</div></div></div></span></span>
</div>
<br></div></div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
</blockquote></div><br><div>
<span style="border-collapse:separate;color:rgb(0, 0, 0);font-family:Helvetica;font-size:medium;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:auto;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><span style="border-collapse:separate;color:rgb(0, 0, 0);font-family:Helvetica;font-size:medium;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><div style="word-wrap:break-word">
============================================<br>F.J. Bernabé Pellicer<div><br>Nikhef, Dutch National Institute for Sub-atomic Physics<br>Group Computer Technology<br>Room: H154<br>Phone: +31 20 592 2185<br>Science Park 105<br>
1098 XG Amsterdam<br><div>The Netherlands</div></div></div></span></span>
</div>
<br></div></div></div></div></blockquote></div><br></div>
</blockquote></div><br><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">============================================<br>F.J. Bernabé Pellicer<div><br>Nikhef, Dutch National Institute for Sub-atomic Physics<br>Group Computer Technology<br>Room: H154<br>Phone: +31 20 592 2185<br>Science Park 105<br>1098 XG Amsterdam<br><div>The Netherlands</div></div></div></span></span>
</div>
<br></div></body></html>