<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<style>
<!--
@font-face
        {font-family:Calibri}
@font-face
        {font-family:Consolas}
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif"}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;
        text-decoration:underline}
span.EmailStyle17
        {font-family:"Calibri","sans-serif";
        color:windowtext}
.MsoChpDefault
        {font-family:"Calibri","sans-serif"}
@page WordSection1
        {margin:1.0in 1.0in 1.0in 1.0in}
div.WordSection1
        {}
-->
</style>
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">Hello,</p>
<p class="MsoNormal">&nbsp;</p>
<p class="MsoNormal">We&#8217;ve been bitten by a strange problem twice now in Torque, so I thought I&#8217;d check to see if anyone else has run into it.&nbsp; We are running Torque 2.5.7 on a large-ish cluster (3000&#43; nodes) and the pbs_server daemon hangs.&nbsp; All qstat or pbsnodes
 commands fail.&nbsp; The process is still in memory but it drops to 0% CPU utilization.</p>
<p class="MsoNormal">&nbsp;</p>
<p class="MsoNormal">Restarting the pbs_server allows it to come back up for a few seconds but then it hangs again.&nbsp; If I clear out all the jobs in the &#8220;jobs&#8221; directory and restart the server it comes back up fine.&nbsp; The last time this happened, I was able to
 move jobs back into the directory a few at a time and keep restarting the pbs_server until I isolated the few jobs that were causing the server to hang.&nbsp; Checking the files, all of these jobs were running on two nodes that had crashed.</p>
<p class="MsoNormal">&nbsp;</p>
<p class="MsoNormal">So, in essence, a pbs_mom node crashed and took down the entire cluster with it.&nbsp; As I said, we&#8217;ve seen this happen twice now.&nbsp; Has anyone else seen this?</p>
<p class="MsoNormal">&nbsp;</p>
<p class="MsoNormal">Regards,</p>
<p class="MsoNormal">&nbsp;</p>
<p class="MsoNormal"><span style="font-size:10.5pt; font-family:Consolas">Blake Wickliffe</span></p>
<p class="MsoNormal"><span style="font-size:10.5pt; font-family:Consolas">Saudi Aramco</span></p>
<p class="MsoNormal"><span style="font-size:10.5pt; font-family:Consolas">ENOD/CSYS/USG HPC Team</span></p>
<p class="MsoNormal"><span style="font-size:10.5pt; font-family:Consolas">(873-4417)</span></p>
<p class="MsoNormal">&nbsp;</p>
</div>
<br>
<hr>
<font face="Verdana" color="Black" size="2"><br>
The contents of this email, including all related responses, files and attachments transmitted with it (collectively referred to as &#8220;this Email&#8221;), are intended solely for the use of the individual/entity to whom/which they are addressed, and may contain confidential
 and/or legally privileged information. This Email may not be disclosed or forwarded to anyone else without authorization from the originator of this Email. If you have received this Email in error, please notify the sender immediately and delete all copies
 from your system. Please note that the views or opinions presented in this Email are those of the author and may not necessarily represent those of Saudi Aramco. The recipient should check this Email and any attachments for the presence of any viruses. Saudi
 Aramco accepts no liability for any damage caused by any virus/error transmitted by this Email.<br>
</font>
</body>
</html>