<div>Well, you definitley came up with something interesting. The NODEAVAILABILITYPOLICY looks as if it should help me to resolve this issue (but currently it didn&#39;t...yet).</div>
<div>&nbsp;</div>
<div>I&#39;ve made the following tests trying to figure what&#39;s behind the scenes of the cluster:</div>
<div>&nbsp;</div>
<div>1. I listed all the nodes that diagnose -n says: &quot;has more processors utilized than dedicated&quot;</div>
<div>2. Then I submitted several very short jobs (2 minutes) and designated each one of them&nbsp;to each one of the nodes listed above. I used the -l host={nodename} -l walltime=00:00:02&nbsp;(The walltime time purpose is to make sure MAUI will not activate any reservation policies on the jobs (In fact the cluster had many free CPUs at the time I made the test, so no reservations are expected)). I expected the jobs *not* to go in to R state, because each and every job was targeted to a node that &quot;has more processors utilized than dedicated&quot; .</div>

<div>3. Indeed that&#39;s what happend! None of the jobs went from Q state to R state. They have been waiting there for very long time (hours).</div>
<div>4. I then checked the load average on each of the nodes listed above, and I indeed found that their load average is higher than their configured resources. For example, if the &#39;nodes&#39; file says &#39;node22 np=4&#39; , I checked it&#39;s load average at the time it had the &quot;has more processors utilized than dedicated&quot; . I found that though this node runs only 2 jobs at the moment, the load average is above it (about 2.70). I expect this node to run 4 jobs at the same time.</div>

<div>&nbsp;</div>
<div>&gt; Are these2 jobs multithreaded? Is the load ~4 while it should be ~2?</div>
<div>I&#39;m not sure if they are multithreaded (needs further checking with the developers) - &nbsp;but you&#39;re right. The load should be no more than 2 for 2 jobs, but infact its &gt;2 . The jobs are C++ compiled with g++ compiler. Maybe a compilation switch will help with reducing the load average to 1 per job?</div>

<div>&nbsp;</div>
<div>I then moved to the next step, and set the NODEAVAILABILITYPOLICY to UTILIZED. The showconfig command now says:</div>
<div>NODEAVAILABILITYPOLICY[0]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; UTILIZED:[DEFAULT]<br></div>
<div>As this didn&#39;t make the jobs run, perhaps it&#39;s a matter of another tweak in the NODEAVAILABILTY policy?</div>
<div>&nbsp;</div>
<div>And yet another thing about the diagnose -j output : I&#39;m not sure if and how should I treat the&nbsp; &#39;WARNING: &nbsp;job &#39;{job_id}&#39; utilizes&nbsp;more memory than dedicated (xxxx &gt; 512) &#39; .&nbsp; A&nbsp;vmstat test shows that indeed jobs are heavily swapping on the node.</div>

<div>&nbsp;</div>
<div>Thanks,</div>
<div>Itay.</div>
<div><br>&nbsp;</div>
<div class="gmail_quote">On Jan 30, 2008 12:26 AM, Jan Ploski &lt;<a href="mailto:Jan.Ploski@offis.de">Jan.Ploski@offis.de</a>&gt; wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid"><br><font color="#888888">Jan Ploski<br></font></blockquote></div><br>