<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
<tt>I manage a 4480 node torque cluster, and for the longest time,
started pbs_mom on boot without any significant problems.<br>
<br>
In the original deployment there were issues with the ping/hello flood,
but working with Garrick and CRI, we got past that.<br>
<br>
Now we have a startup item that does a few checks ( filesystem
availability, some OS checks etc ) that starts the pbs_mom at boot time
if all tests pass.&nbsp; <br>
It adds a bit of sanity to the start-up process, but does not take
admin interference.<br>
<br>
I too would be interested in what problems you have seen, as we had few
to none after fixing the timings.<br>
<br>
--Jerry<br>
---------------------<br>
Sandia Nationall Labs<br>
Scientific Computing<br>
</tt><br>
<br>
Douglas Needham wrote:
<blockquote cite="mid:1260550373.10163.11.camel@dneedham.pdl.cmu.edu"
 type="cite">
  <pre wrap="">On Fri, 2009-12-11 at 14:04 +1100, Chris Samuel wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">I would argue that you should never start pbs_mom on
boot, ever.

We only know of one cluster where that is done and it
causes persistent problems for all sorts of reasons. :(
    </pre>
  </blockquote>
  <pre wrap=""><!---->
I would like to hear the details on this.  Would you be willing to
highlight some of the issues at least?  

&gt;From personal experience (I was the developer responsible for the 1200+
UNIX nodes at CompuServe years ago, and the one to whom operations came
with complaints, RFEs, etc.), it seems to me that with a cluster having
a sufficient number of nodes, the administrative cost of having to take
steps to start pbs_mom could soon become consuming.  I know of one major
cluster which has a scheduled power outage in the coming weeks, and even
having to start just one process per node, even using some script from
an admin node, could mean an hour or more of additional downtime.

- Doug

_______________________________________________
torqueusers mailing list
<a class="moz-txt-link-abbreviated" href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a class="moz-txt-link-freetext" href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>


  </pre>
</blockquote>
</body>
</html>