Craig,<div><br></div><div>That is most certainly a bug. We will see if we can reproduce it but that definitely shouldn&#39;t be happening. Nodes should be down until they report as up.</div><div><br></div><div>David<br><br>
<div class="gmail_quote">On Fri, Jul 13, 2012 at 12:19 AM, Craig West <span dir="ltr">&lt;<a href="" target="_blank"></a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi All,<br>
This is an observation on Torque 4.0.2+ (not sure about other 4.X<br>
versions). I&#39;m not sure if what I am seeing is a bug, or a change in the<br>
way things are being monitored... would like to hear from the developers<br>
about what the plan is/was, and what they were trying to achieve (if it<br>
is not just a bug).<br>
Setting up the scenario first. I have a test cluster with 5 nodes. 3 of<br>
the nodes are online, one is powered on (but not running pbs_mom) and<br>
the last is not even powered on.<br>
It was a bit of a surprise to me that when I started pbs_server recently<br>
all 5 nodes were reporting &quot;free&quot;... something that isn&#39;t even possible<br>
(only 3 should have been free). So, after a few different tests I<br>
figured that the default startup state of nodes is now &quot;free&quot;. While I<br>
don&#39;t recall what the original startup state, I don&#39;t recall it being<br>
&quot;free&quot;... think it might have been &quot;down&quot;.<br>
It seems this is related to the status recorded in the<br>
server_priv/node_status file. If I take the node &quot;offline&quot; (as opposed<br>
to it just being &quot;down&quot; because pbs_mom is not running), the entry for<br>
the node in the node_status file vanishes... restarting pbs_server has<br>
the node start with an offline state. All the nodes that are online have<br>
a &quot;0&quot; state.<br>
Previously if a node was taken offline, it would have a &quot;1&quot; in the<br>
node_status file (e.g. nodename 1). If a node was online then it didn&#39;t<br>
have an entry at all. Thinking that perhaps the change was done to allow<br>
for the large scale clusters benefit.<br>
If the node is simply down there is no difference recorded in the<br>
node_status file... that is at pbs_server startup it assumes the node<br>
should be online, and marks it as free. I even deleted the file, which<br>
caused the nodes to come online as they were detected rather than assume<br>
they were all online.<br>
So, why do I bring all this up??? I&#39;m seeing a case here where MOAB is<br>
trying to launch jobs on the nodes that are &quot;down&quot;, and they fail, and<br>
get pushed to defer (straight after a pbs_server start - which includes<br>
a boot of the management node). It is possible these jobs could have<br>
started on a different online node (or stayed in idle). Not a big issue<br>
as the jobs should start again fine after the defer period.<br>
However, it does mean that a job that was at the top of the Idle queue<br>
(highest priority) could be deferred and then the lower priority jobs<br>
get to start. This will cause an issue with the users...<br>
Note: I get the following error on the job:<br>
RM failure, rc: 15046, msg: &#39;Resource temporarily unavailable&#39;<br>
And then it is deferred (for an hour by default).<br>
If this is a bug, I&#39;ll submit a ticket.<br>
If the developers have changed something to improve things elsewhere<br>
(there has been a lot of work to improve the large scale side of Torque)<br>
then perhaps this has led to the issue.<br>
Perhaps there is something I can do to work around the issue?<br>
It does take a while before the node is finally detected as being down.<br>
Note: It takes about 150 seconds for it to show up as &quot;down&quot; from &quot;free&quot;<br>
after starting pbs_server. I have node_check_rate = 150 in the pbs<br>
settings so I expect that is the trigger period. The default for pbs now<br>
appears to be 600 seconds.<br>
<span class="HOEnZb"><font color="#888888"><br>
Craig West                   Systems Manager<br>
Victorian Partnership for Advanced Computing<br>
torquedev mailing list<br>
<a href=""></a><br>
<a href="" target="_blank"></a><br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>