<html><head><style type="text/css"><!-- DIV {margin:0px;} --></style></head><body><div style="font-family:'times new roman', 'new york', times, serif;font-size:12pt"><div>Thanks James,</div><div><br></div><div>Each node in our cluster has 12Gb memory and 8 processors. &nbsp;The resource the job tried to request was something like ' -l mem=12gb, nodes=1:ppn=4' (the java app uses 4 processors.)</div><div><br></div><div>My problems were &nbsp;</div><div>(1)Torque did not let me use -l nodes=1:ppn=4, mem=12gb, vmem=12gb, pmem=12gb at all, it reported 'getsize() failed for mem/pmem in mom_set_limits' and exited;</div><div>(2) If I did not set mem=12gb, i.e., used '-l nodes=1:ppn=4' only, &nbsp;the java app (requiring 12Gb explicitly) would run without any problem, but Torque did not prevent another new job (requiring 12Gb as well) from starting on that node, which caused application failed&nbsp;</div><div><br></div><div>I should (not tried though) be able to
 use '-l nodes=1:ppn=8' to stop new job from starting on that node&nbsp;because there is no cores are free until the current job terminates. &nbsp;This appears to me not an optimized solution as the Java app only needs 4 cores, and the rest of 4 cores + 3~4Gb of memory on that node can be used by other small apps running through Torque; also the performance profiling showed the application runs the fastest on 4 cores. &nbsp;Assigning 8 cores to it would not make the app run any faster.</div><div><br></div><div>Setting unlimited stack size also did not help solving my problem.</div><div><br></div><div>Any suggestions? &nbsp;Thank you again for the help! I am really getting frustrated :(</div><div><br></div><div>P.S.</div><div><br></div><div><br></div><div style="font-family:times new roman, new york, times, serif;font-size:12pt"><div style="font-family:times new roman, new york, times, serif;font-size:12pt"><font size="2" face="Tahoma"><hr
 size="1"><b><span style="font-weight: bold;">From:</span></b> "Coyle, James J [ITACD]" &lt;jjc@iastate.edu&gt;<br><b><span style="font-weight: bold;">To:</span></b> Fan Dong &lt;fan.dong@ymail.com&gt;; "torqueusers@supercluster.org" &lt;torqueusers@supercluster.org&gt;<br><b><span style="font-weight: bold;">Sent:</span></b> Tue, April 13, 2010 11:29:53 AM<br><b><span style="font-weight: bold;">Subject:</span></b> RE: [torqueusers] Torque memory allocation<br></font><br>


 
 
<style>
<!--
 
 _filtered {font-family:"Cambria Math";panose-1:2 4 5 3 5 4 6 3 2 4;}
 _filtered {font-family:Calibri;panose-1:2 15 5 2 2 2 4 3 2 4;}
 _filtered {font-family:Tahoma;panose-1:2 11 6 4 3 5 4 4 2 4;}
 
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;margin-bottom:.0001pt;font-size:12.0pt;font-family:"serif";}
a:link, span.MsoHyperlink
        {color:blue;text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;text-decoration:underline;}
pre
        {margin:0in;margin-bottom:.0001pt;font-size:10.0pt;font-family:"Courier New";}
span.EmailStyle17
        {font-family:"sans-serif";color:#1F497D;}
span.HTMLPreformattedChar
        {font-family:"Courier New";}
.MsoChpDefault
        {font-size:10.0pt;}
 _filtered {margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {}
-->
</style>





<div class="Section1">

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">Fan,</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">You probably are having problems with default settings for pmem
and vmem, which you are not setting.</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">The defaults are probably 4GB.</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">I’ll assume that you have nodes with 16 processors and
with 16Gb of memory, (1GB/processor on average) </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">and that the Java app is a single process, so you are only
reserving 1 processor with nodes=1:ppn=1</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">&nbsp;so that you reservation looks something like:</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Courier New&quot;;">#PBS
-lmem=12Gb,nodes=1:ppn=1,walltime=1:00:00</span></p> 

<pre> &nbsp;</pre><pre> &nbsp;</pre><pre>&nbsp; If so, I’d suggest instead using pmem and vmem also, and reserve</pre><pre>Enough processors on that node so that that number of processors with</pre><pre>the average memory will satisfy your memory needs. In this case</pre><pre>12GB at 1GB per processor means reserve 12 processors.</pre><pre> &nbsp;</pre><pre>#PBS -lvmem=12GB,pmem=12Gb,mem=12Gb,nodes=1:ppn=12,walltime=1:00:00</pre> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">Then 12/16 ths of the memory is being used, so reserve 12/16 ths
of the cpus on that node.</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">So two of these jobs cannot fit onto one node, and if the
process us being killed for virtual memory (vmem)</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">or for process size (pmem )should take care of that.</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">Also if you are using only a single node and using tcsh or csh, I’d
place the command </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">unlimit stacksize </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">in the script before the memory intensive command (look uo the
equivalent command if you are in a Bourne shell like bash) </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">If you use multiple nodes , put this command in your ~/.cshrc
file.</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">&nbsp;</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">&nbsp;James Coyle, PhD</span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">&nbsp;High Performance Computing Group&nbsp;&nbsp;&nbsp;&nbsp; </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">&nbsp;115 Durham
Center&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;">&nbsp;Iowa State
Univ.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"><span>&nbsp;Ames, Iowa
50011&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; web:
<a target="_blank" href="http://www.public.iastate.edu/~jjc">http://www.public.iastate.edu/~jjc</a></span></span></p> 

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;sans-serif&quot;;color:#1F497D;"> &nbsp;</span></p> 

<div>

<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in;">

<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:&quot;sans-serif&quot;;">From:</span></b><span style="font-size:10.0pt;font-family:&quot;sans-serif&quot;;">
torqueusers-bounces@supercluster.org
[mailto:torqueusers-bounces@supercluster.org] <b>On Behalf Of </b>Fan Dong<br>
<b>Sent:</b> Monday, April 12, 2010 9:21 PM<br>
<b>To:</b> torqueusers@supercluster.org<br>
<b>Subject:</b> [torqueusers] Torque memory allocation</span></p> 

</div>

</div>

<p class="MsoNormal"> &nbsp;</p> 

<div>

<div>

<p class="MsoNormal">Hi there,</p> 

</div>

<div>

<p class="MsoNormal"> &nbsp;</p> 

</div>

<div>

<p class="MsoNormal">I am running into a problem described as the follows:</p> 

</div>

<div>

<p class="MsoNormal">1) we have some memory intensive java jobs to run through
Torque, each of the jobs requires 12Gb of memory and each nodes in the cluster
has 16Gb of memory.</p> 

</div>

<div>

<p class="MsoNormal">2) when a job is running on one of the node, Torque does not
prevent the new job (requiring 12Gb memory as well) from starting on the same
node, causing that new job fails because &nbsp;there is no enough memory.
&nbsp;(We already let Torque to scatter the jobs cross the nodes, but this will
happen when there are more jobs than nodes)</p> 

</div>

<div>

<p class="MsoNormal">3) tried use -l mem=12gb, but did not work. &nbsp;Torque
seems to have a 4Gb limit for this setting. &nbsp;</p> 

</div>

<div>

<p class="MsoNormal"> &nbsp;</p> 

</div>

<div>

<p class="MsoNormal">I was wondering if there is any solution for that. &nbsp;We
are not using Moab or Maui.</p> 

</div>

<div>

<p class="MsoNormal"> &nbsp;</p> 

</div>

<div>

<p class="MsoNormal">Any input is highly appreciated.</p> 

</div>

</div>

<p class="MsoNormal"> &nbsp;</p> 

</div>




</div></div><div style="position:fixed"></div>


</div><br></body></html>