<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>That's great, thanks very much for the information! We'll look for this soon, and make the move from 4.1.x to 4.2.x.<br><br>&nbsp; -craig<br><br><div><hr id="stopSpelling">Date: Thu, 21 Nov 2013 08:17:22 -0700<br>From: dbeer@adaptivecomputing.com<br>To: torqueusers@supercluster.org<br>Subject: Re: [torqueusers] intermittent qsub failures<br><br><div dir="ltr">I thought that we had this fixed in 4.2.6, but it looks like the fix is currently only in Jarvik. We can get this released with 4.2.7.<br></div><div class="ecxgmail_extra"><br><br><div class="ecxgmail_quote">On Wed, Nov 20, 2013 at 7:56 PM, Craig Artley <span dir="ltr">&lt;<a href="mailto:cartley@hotmail.com" target="_blank">cartley@hotmail.com</a>&gt;</span> wrote:<br>
<blockquote class="ecxgmail_quote" style="border-left:1px #ccc solid;padding-left:1ex;">This is with 4.1.6.<br>
<br>
What version / branch do you recommend?<br>
<br>
&nbsp; -craig<br>
<br>
________________________________<br>
&gt; Date: Wed, 20 Nov 2013 12:10:02 -0700<br>
&gt; From: <a href="mailto:dbeer@adaptivecomputing.com">dbeer@adaptivecomputing.com</a><br>
&gt; To: <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; Subject: Re: [torqueusers] intermittent qsub failures<br>
<div class="ecxim">&gt;<br>
&gt; What version are you getting this error on? We had a related fix recently.<br>
&gt;<br>
&gt;<br>
&gt; On Tue, Nov 19, 2013 at 7:20 PM, Craig Artley<br>
</div><div><div class="h5">&gt; &lt;<a href="mailto:cartley@hotmail.com">cartley@hotmail.com</a>&lt;mailto:<a href="mailto:cartley@hotmail.com">cartley@hotmail.com</a>&gt;&gt; wrote:<br>
&gt; I am seeing intermittent qsub failures. It seems to be related to load<br>
&gt; --- several hundred jobs submitted. Every once in a while, qsub fails<br>
&gt; with "Unknown Job Id Error" or "can not locate new job":<br>
&gt;<br>
&gt; Exit code = 153<br>
&gt; Error: qsub: submit error (Unknown Job Id Error)<br>
&gt;<br>
&gt; Exit code = 196<br>
&gt; Error: qsub: submit error (Invalid request MSG=can not locate new<br>
&gt; job 630254.h2 (0 - Success))<br>
&gt;<br>
&gt; In the server log, I find messages like these:<br>
&gt;<br>
&gt; 11/19/2013 01:16:42;0080;PBS_Server.27108;Job;625027.h2;Unknown Job Id Error<br>
&gt;<br>
&gt; 11/19/2013 01:16:42;0080;PBS_Server.27108;Req;req_reject;Reject reply<br>
&gt; code=15001(Unknown Job Id Error MSG=cannot locate job), aux=0,<br>
&gt; type=DeleteJob, from joeuser@g4<br>
&gt;<br>
&gt;<br>
&gt; 11/19/2013<br>
&gt; 14:41:44;0001;PBS_Server.29564;Svr;PBS_Server;LOG_ERROR::Invalid<br>
&gt; request (15004) in req_jobscript, can not locate new job 630254.h2 (0 -<br>
&gt; Success)<br>
&gt; 11/19/2013 14:41:44;0100;PBS_Server.27141;Job;630253.h2;enqueuing into<br>
&gt; parallel, state 1 hop 1<br>
&gt; 11/19/2013 14:41:44;0080;PBS_Server.29564;Req;req_reject;Reject reply<br>
&gt; code=15004(Invalid request MSG=can not locate new job 630254.h2 (0 -<br>
&gt; Success)), aux=0, type=JobScript, from joeuser@g4<br>
&gt;<br>
&gt; So far I haven't found anything helpful. Please let me know if you have<br>
&gt; idea what's going on.<br>
&gt;<br>
&gt; By the way, we were having lots of problems with Torque and NFS, but<br>
&gt; after configuring torque as recommended in<br>
&gt; <a href="http://www.supercluster.org/pipermail/torqueusers/2011-March/012425.html" target="_blank">http://www.supercluster.org/pipermail/torqueusers/2011-March/012425.html</a>,<br>
&gt; those problems went away and our reliability improved dramatically. Now<br>
&gt; all that remains are the two occasional problems above.<br>
&gt;<br>
&gt; -craig<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
</div></div>&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
<div class="ecxHOEnZb"><div class="h5">&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; David Beer | Senior Software Engineer<br>
&gt; Adaptive Computing<br>
&gt;<br>
&gt; _______________________________________________ torqueusers mailing<br>
&gt; list <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>
<br>_______________________________________________
torqueusers mailing list
torqueusers@supercluster.org
http://www.supercluster.org/mailman/listinfo/torqueusers</div>                                               </div></body>
</html>