<div class="gmail_quote">On Wed, Jun 13, 2012 at 9:41 PM, Ian Miller <span dir="ltr">&lt;<a href="mailto:ianm@uchicago.edu" target="_blank">ianm@uchicago.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi All,<br>
I have a 34 node cluster running CentOS 6 with torque 2.5.7 and maui 3.3.1<br>
When a user submits a job to a node and it takes up pretty much all of the resources on the server I&#39;ve noticed that qsub and qstat will stop responding.  My fix is to restart the pbs_server. My question Is this a config on the mom side that needs to be changed or is this a pbs_server end config that needs to be looked at.  Users will submit jobs that from time to time will kill a node but the rest of the cluster should not suffer.<br>

<br>
 -i<br>
<br></blockquote></div><br>What else is happening on your system. For example, how many jobs are in the queue? Do you have a user calling qstat over and over? This combination on 2.5 can cause the server to appear hung because it is single threaded and all the time is getting taken up by the qstat calls. <br>
<br>I would look at other things along this line as well.<br><br>Ken<br>