How did you configure TORQUE? Did you use --with-tcp-retry-limit=? I suggest using 5 there. pbs_server can get stuck retrying different ports for a very long time (over 4.5 hours) because it will retry about 880 different ports to contact a certain node, and sometimes it gets stuck. If you set this limit, you make it so that it doesn&#39;t retry more than the number of times that you specify.<div>
<br></div><div>David<br><br><div class="gmail_quote">On Thu, Jun 14, 2012 at 8:30 AM, Ken Nielson <span dir="ltr">&lt;<a href="mailto:knielson@adaptivecomputing.com" target="_blank">knielson@adaptivecomputing.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im"><div class="gmail_quote">On Wed, Jun 13, 2012 at 9:41 PM, Ian Miller <span dir="ltr">&lt;<a href="mailto:ianm@uchicago.edu" target="_blank">ianm@uchicago.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi All,<br>
I have a 34 node cluster running CentOS 6 with torque 2.5.7 and maui 3.3.1<br>
When a user submits a job to a node and it takes up pretty much all of the resources on the server I&#39;ve noticed that qsub and qstat will stop responding.  My fix is to restart the pbs_server. My question Is this a config on the mom side that needs to be changed or is this a pbs_server end config that needs to be looked at.  Users will submit jobs that from time to time will kill a node but the rest of the cluster should not suffer.<br>


<br>
 -i<br>
<br></blockquote></div><br></div>What else is happening on your system. For example, how many jobs are in the queue? Do you have a user calling qstat over and over? This combination on 2.5 can cause the server to appear hung because it is single threaded and all the time is getting taken up by the qstat calls. <br>

<br>I would look at other things along this line as well.<span class="HOEnZb"><font color="#888888"><br><br>Ken<br>
</font></span><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>
</div>