Phil,<br><br>We have had other customers/users that had this problem due to LDAP failing sometimes. We added a retry parameter for the moms. You can set it in the mom&#39;s config file, just add the line:<br><br>$ext_pwd_retry &lt;num retries&gt;<br>
<br>If you don&#39;t really have users going to machines that they shouldn&#39;t go to, then you might want to set this to a fairly high number so that jobs aren&#39;t lost unnecessarily.<br><br>David<br><br><div class="gmail_quote">
On Fri, Jun 22, 2012 at 2:48 PM, Phil Regier <span dir="ltr">&lt;<a href="mailto:pregier@ittc.ku.edu" target="_blank">pregier@ittc.ku.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Oops.  An error and an omission:  I meant 4.0.2 instead of 4.0.4 (trying 4.0.3 snapshot now), and it should also be noted that as part of the stress test I am constantly watching repeated qstats.  The problem does not seem to appear with 4.0.x as such; might this be related to the switch from a single-threaded server to multi-threaded?<br>

<div class="HOEnZb"><div class="h5"><br>
----- Original Message -----<br>
From: &quot;Phil Regier&quot; &lt;<a href="mailto:pregier@ittc.ku.edu">pregier@ittc.ku.edu</a>&gt;<br>
To: <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
Sent: Friday, June 22, 2012 2:14:12 PM<br>
Subject: Sporadic UID errors<br>
<br>
Sorry if this has been raised (there is another LDAP thread active but I think the problem is very different) before; I&#39;m still going through the archives.<br>
<br>
I&#39;m trying to evaluate (stress test) Torque 3.0.5 and 4.0.4 for a possible upgrade from 2.x and have come across some odd behaviors.  In particular, when I submit 1000 small jobs to a fake one-node cluster running Torque 3.0.5 and Maui 3.3.1 (built in-house as RPMs -- not by me, but I can retrieve specfiles etc. if that would help) and authenticated against LDAP, I tend to get 2-3 failed submissions (i.e., about 0.25% of my jobs never get accepted); for example:<br>

<br>
...<br>
14289.localhost<br>
14290.localhost<br>
14291.localhost<br>
qsub: Bad UID for job execution MSG=User pregier does not exist in server password file<br>
<br>
14293.localhost<br>
14294.localhost<br>
14295.localhost<br>
...<br>
<br>
<br>
This is just a loop; there is no difference between job 14291, 14293, and what should have been 14292.<br>
<br>
Is this normal?  Are there precautions to avoid it, or is this a bug I should be reporting in more detail?<br>
<br>
Thanks for any suggestions; I&#39;m not terribly experienced with Torque, so I&#39;m not sure how quickly I should be bringing this sort of thing to the list.  I can provide more details about my setup and/or stress tests, but didn&#39;t want to dump too much useless information in my first post.<br>

<br>
Phil Regier<br>
Student assistant system admininstrator<br>
University of Kansas, ITTC<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>