<html><body><div style="color:#000; background-color:#fff; font-family:times new roman, new york, times, serif;font-size:12pt"><div>Hello All,</div><div>&nbsp;</div><div>I am still having a puzzle where a job does not start when its time arrives.&nbsp; It only impacts a repeating job on&nbsp;one queue&nbsp;that re-qsubs&nbsp;itself at end of each run at&nbsp;10 or 30 mins intervals.&nbsp; About a couple times a week, it will get stuck at Q.&nbsp; Always happens during work hours, mostly before 3pm, and many times around the supposedly slow lunch hour.&nbsp; In the&nbsp;server_logs, there is odd entry a minute or two before scheduled start:</div><div>&nbsp;</div><div>07/09/2012 10:47:30;0008;PBS_Server;Job;6035.naboo.linnbenton.edu;Job Modified at request of <a href="mailto:rpt_prod@naboo.linnbenton.edu">rpt_prod@naboo.linnbenton.edu</a></div><div>&nbsp;</div><div>qstat shows Hold_Types changing from n to o.&nbsp; When&nbsp;it happens, we simply issue
 QRUN on the stuck job.&nbsp;We average about a 1000 qsubs per day&nbsp;mostly using two queues&nbsp;(most are&nbsp;small jobs, 1 minute or less) .&nbsp; Restarting TORQUE weekly did not help.&nbsp; We have a busy but very&nbsp;simple TORQUE 2.5.6 environment (No external nodes/users, all local&nbsp;in a&nbsp;VM host under Oracle VM 2.2.2):</div><div>&nbsp;</div><div>#&nbsp;uname -a<br>Linux naboo.linnbenton.edu 2.6.18-274.7.1.0.1.el5 #1 SMP Thu Oct 20 22:20:30 EDT 2011 x86_64 x86_64 x86_64 GNU/Linux<br></div><div>#&nbsp;qstat -q</div><div>server: naboo.linnbenton.edu</div><div>Queue&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Memory CPU Time Walltime Node&nbsp; Run Que Lm&nbsp; State<br>---------------- ------ -------- -------- ----&nbsp; --- --- --&nbsp; -----<br>sys_ban&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
 --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; 1&nbsp; 17&nbsp; 1&nbsp;&nbsp; E R<br>sys_srv&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; 8&nbsp;&nbsp; 8 10&nbsp;&nbsp; E R<br>sys_tst&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp; 4&nbsp; 1&nbsp;&nbsp; E R<br>sys_ban_quick&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp; 0&nbsp; 1&nbsp;&nbsp; E
 R<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ----- -----<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 9&nbsp;&nbsp;&nbsp; 29<br># qmgr -c "list que sys_ban"<br>Queue sys_ban<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; queue_type = Execution<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; max_queuable = 300<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; total_jobs = 19<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; state_count = Transit:0 Queued:0 Held:0 Waiting:18
 Running:0 Exiting:0<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; max_running = 1<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resources_default.nodes = 1<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resources_default.walltime = 168:00:00<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mtime = Sat Jul 28 01:36:45 2012<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resources_assigned.nodect = 0<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; enabled = True<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; started = True</div><div>&nbsp;</div><div>#&nbsp;ps -ef|grep pbs<br>root&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8860&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp; 0 Jul27 ?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 00:03:32 /usr/local/sbin/pbs_mom<br>root&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8865&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp; 0 Jul27 ?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 00:00:44 /usr/local/sbin/pbs_server<br>root&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8867&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp; 0
 Jul27 ?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 00:00:15 /usr/local/sbin/pbs_sched<br></div><div>During installs, I issue:</div><div>./configure --enable-docs --disable-dependency-tracking --disable-libtool-lock --with-scp&nbsp; # USED SINCE 2.4.5<br><br>We've upgraded several times&nbsp;and I am running out of ideas, so if you have a similar environment that works, I would love to see your settings? &nbsp;For example, what options did you 'configure' with?</div><div>&nbsp;</div><div>It was <span id="misspell-33"><span>suggested</span></span> to use gdb on MOM, but have not installed gdb yet.<br></div><div>Thank you, Sam.<var id="yui-ie-cursor"></var></div></div></body></html>