You don&#39;t need to switch - this fix is in 4.* as well.<div><br></div><div>David<br><br><div class="gmail_quote">On Mon, Jun 25, 2012 at 9:36 AM, Phil Regier <span dir="ltr">&lt;<a href="mailto:pregier@ittc.ku.edu" target="_blank">pregier@ittc.ku.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Nice; that&#39;s pretty slick!  I&#39;m sure that will solve the problem; I&#39;ll switch back to 3.0.5 in a bit to try it out.<br>

<br>
Thanks!<br>
<span class="HOEnZb"><font color="#888888"><br>
Phil<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
----- Original Message -----<br>
From: &quot;David Beer&quot; &lt;<a href="mailto:dbeer@adaptivecomputing.com">dbeer@adaptivecomputing.com</a>&gt;<br>
To: &quot;Torque Users Mailing List&quot; &lt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
Sent: Monday, June 25, 2012 10:01:29 AM<br>
Subject: Re: [torqueusers] Sporadic UID errors<br>
<br>
<br>
Phil,<br>
<br>
We have had other customers/users that had this problem due to LDAP failing sometimes. We added a retry parameter for the moms. You can set it in the mom&#39;s config file, just add the line:<br>
<br>
$ext_pwd_retry &lt;num retries&gt;<br>
<br>
If you don&#39;t really have users going to machines that they shouldn&#39;t go to, then you might want to set this to a fairly high number so that jobs aren&#39;t lost unnecessarily.<br>
<br>
David<br>
<br>
<br>
On Fri, Jun 22, 2012 at 2:48 PM, Phil Regier &lt; <a href="mailto:pregier@ittc.ku.edu">pregier@ittc.ku.edu</a> &gt; wrote:<br>
<br>
<br>
Oops. An error and an omission: I meant 4.0.2 instead of 4.0.4 (trying 4.0.3 snapshot now), and it should also be noted that as part of the stress test I am constantly watching repeated qstats. The problem does not seem to appear with 4.0.x as such; might this be related to the switch from a single-threaded server to multi-threaded?<br>

<br>
<br>
<br>
----- Original Message -----<br>
From: &quot;Phil Regier&quot; &lt; <a href="mailto:pregier@ittc.ku.edu">pregier@ittc.ku.edu</a> &gt;<br>
To: <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
Sent: Friday, June 22, 2012 2:14:12 PM<br>
Subject: Sporadic UID errors<br>
<br>
Sorry if this has been raised (there is another LDAP thread active but I think the problem is very different) before; I&#39;m still going through the archives.<br>
<br>
I&#39;m trying to evaluate (stress test) Torque 3.0.5 and 4.0.4 for a possible upgrade from 2.x and have come across some odd behaviors. In particular, when I submit 1000 small jobs to a fake one-node cluster running Torque 3.0.5 and Maui 3.3.1 (built in-house as RPMs -- not by me, but I can retrieve specfiles etc. if that would help) and authenticated against LDAP, I tend to get 2-3 failed submissions (i.e., about 0.25% of my jobs never get accepted); for example:<br>

<br>
...<br>
14289.localhost<br>
14290.localhost<br>
14291.localhost<br>
qsub: Bad UID for job execution MSG=User pregier does not exist in server password file<br>
<br>
14293.localhost<br>
14294.localhost<br>
14295.localhost<br>
...<br>
<br>
<br>
This is just a loop; there is no difference between job 14291, 14293, and what should have been 14292.<br>
<br>
Is this normal? Are there precautions to avoid it, or is this a bug I should be reporting in more detail?<br>
<br>
Thanks for any suggestions; I&#39;m not terribly experienced with Torque, so I&#39;m not sure how quickly I should be bringing this sort of thing to the list. I can provide more details about my setup and/or stress tests, but didn&#39;t want to dump too much useless information in my first post.<br>

<br>
Phil Regier<br>
Student assistant system admininstrator<br>
University of Kansas, ITTC<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
<br>
<br>
--<br>
<br>
David Beer | Software Engineer<br>
Adaptive Computing<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>
</div>