<div dir="ltr">Gus,<div><br></div><div>That is a really strange situation. </div><div><br></div><div>The error </div><div><br></div><div><div>Oct 11 04:19:24 master pbs_server: LOG_ERROR::Job not found (15086) in</div><div>
svr_dequejob, Job has no queue</div></div><div><br></div><div>can&#39;t happen around running a job. This is related to a job getting routed or moved to a remote server. Are you doing this? Can you provide a sequence of events that lead to this error?</div>
<div><br></div><div>The other errors:</div><div><div>Oct 11 04:55:55 master pbs_server: LOG_ERROR::Time out (15085) in</div><div>send_job_work, child failed in previous commit request for job 228.master</div></div><div><br>
</div><div>can happen during any type of job move: running a job, routing it, or moving it to a remote server. However, in most cases there should be an error message before this that provides more information about what the failure was. Have you looked through the entire log file around these messages to try to find the root cause of the problem?</div>
<div><br></div><div>As far as the question about compatibility - 4.2.6 will resolve the issue with pbs_sched and there is no intention to break compatibility with Maui.</div><div><br></div><div>I&#39;m not sure if the problem you&#39;re having is related to what kind of scheduler you are using or what the root issue is at this point.</div>
</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Oct 11, 2013 at 10:22 AM, Gus Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu" target="_blank">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dear Torque experts<br>
<br>
I installed Torque 4.2.5 and Maui 3.3.1 in this cluster.<br>
For a few days it worked, but now I get jobs stalled in Q state<br>
that only run when forced by qrun.<br>
<br>
I get these syslog error messages on the server,<br>
repeated time and again:<br>
<br>
**************************************************************************<br>
Oct 11 04:19:24 master pbs_server: LOG_ERROR::Job not found (15086) in<br>
svr_dequejob, Job has no queue<br>
Oct 11 04:34:20 master pbs_server: LOG_ERROR::Time out (15085) in<br>
send_job_work, child failed in previous commit request for job 219.master<br>
Oct 11 04:55:55 master pbs_server: LOG_ERROR::Time out (15085) in<br>
send_job_work, child failed in previous commit request for job 228.master<br>
<br>
...<br>
<br>
Oct 11 05:31:07 master pbs_server: LOG_ERROR::Batch protocol error<br>
(15033) in send_job_work, child failed in previous commit request for<br>
job 219.master<br>
Oct 11 05:53:07 master pbs_server: LOG_ERROR::Batch protocol error<br>
(15033) in send_job_work, child failed in previous commit request for<br>
job 228.master<br>
...<br>
**************************************************************************<br>
<br>
And here are the jobs forever in Q state:<br>
<br>
qstat 219 228<br>
Job ID                    Name             User            Time Use S Queue<br>
------------------------- ---------------- --------------- -------- - -----<br>
219.master                 GC.Base.1981.01  ltmurray               0 Q<br>
production<br>
228.master                 g1ms290_lg_1     sw2526                 0 Q<br>
production<br>
<br>
************<br>
<br>
I already restarted pbs_mom and trqauthd on the nodes,<br>
restarted pbs_server, trquauthd and maui on the server,<br>
repeated the routine many times and nothing seems to help.<br>
I even rebooted the nodes, to no avail.<br>
<br>
At this point the machine is already in production, so<br>
playing hard ball this way with the nodes is a real pain<br>
for me and for the users and their jobs.<br>
<br>
Questions:<br>
<br>
1) What is wrong?<br>
<br>
2) Should I downgrade to the old (hopefully reliable) Torque 2.5.X?<br>
<br>
3) We know that Torque 4.X.Y currently doesn&#39;t work with pbs_sched.<br>
Does it work with Maui at least?<br>
Or only with Moab these days?<br>
<br>
Thank you,<br>
Gus Correa<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>