<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>Hi,<div><br></div><div>We are encountering some problems with jobs asking too many memory.</div><div><br></div><div>For example, a job is asking 4 cpu and 126Gb.</div><div><div>pbs_mom: LOG_INFO::create_job_cpuset, creating cpuset for job&nbsp;235376[2]:&nbsp;<span style="font-size: 12pt;">4 cpus (0-3), 1 mems (0)</span></div></div><div><span style="font-size: 12pt;"><br></span></div><div><span style="font-size: 12pt;">For my test i use "stress" with the following command :</span></div><div>stress -c 2 -t 600 --vm 2 --vm-bytes 61G</div><div><br></div><div>My node is with this topology :</div><div><div>Machine (128GB)</div><div>&nbsp; NUMANode L#0 (P#0 64GB) + Socket L#0 + L3 L#0 (20MB)</div><div>&nbsp; &nbsp; L2 L#0 (256KB) + L1d L#0 (32KB) + L1i L#0 (32KB) + Core L#0 + PU L#0 (P#0)</div><div>&nbsp; &nbsp; L2 L#1 (256KB) + L1d L#1 (32KB) + L1i L#1 (32KB) + Core L#1 + PU L#1 (P#1)</div><div>&nbsp; &nbsp; L2 L#2 (256KB) + L1d L#2 (32KB) + L1i L#2 (32KB) + Core L#2 + PU L#2 (P#2)</div><div>&nbsp; &nbsp; L2 L#3 (256KB) + L1d L#3 (32KB) + L1i L#3 (32KB) + Core L#3 + PU L#3 (P#3)</div><div>&nbsp; &nbsp; L2 L#4 (256KB) + L1d L#4 (32KB) + L1i L#4 (32KB) + Core L#4 + PU L#4 (P#4)</div><div>&nbsp; &nbsp; L2 L#5 (256KB) + L1d L#5 (32KB) + L1i L#5 (32KB) + Core L#5 + PU L#5 (P#5)</div><div>&nbsp; &nbsp; L2 L#6 (256KB) + L1d L#6 (32KB) + L1i L#6 (32KB) + Core L#6 + PU L#6 (P#6)</div><div>&nbsp; &nbsp; L2 L#7 (256KB) + L1d L#7 (32KB) + L1i L#7 (32KB) + Core L#7 + PU L#7 (P#7)</div><div>&nbsp; NUMANode L#1 (P#1 64GB) + Socket L#1 + L3 L#1 (20MB)</div><div>&nbsp; &nbsp; L2 L#8 (256KB) + L1d L#8 (32KB) + L1i L#8 (32KB) + Core L#8 + PU L#8 (P#8)</div><div>&nbsp; &nbsp; L2 L#9 (256KB) + L1d L#9 (32KB) + L1i L#9 (32KB) + Core L#9 + PU L#9 (P#9)</div><div>&nbsp; &nbsp; L2 L#10 (256KB) + L1d L#10 (32KB) + L1i L#10 (32KB) + Core L#10 + PU L#10 (P#10)</div><div>&nbsp; &nbsp; L2 L#11 (256KB) + L1d L#11 (32KB) + L1i L#11 (32KB) + Core L#11 + PU L#11 (P#11)</div><div>&nbsp; &nbsp; L2 L#12 (256KB) + L1d L#12 (32KB) + L1i L#12 (32KB) + Core L#12 + PU L#12 (P#12)</div><div>&nbsp; &nbsp; L2 L#13 (256KB) + L1d L#13 (32KB) + L1i L#13 (32KB) + Core L#13 + PU L#13 (P#13)</div><div>&nbsp; &nbsp; L2 L#14 (256KB) + L1d L#14 (32KB) + L1i L#14 (32KB) + Core L#14 + PU L#14 (P#14)</div><div>&nbsp; &nbsp; L2 L#15 (256KB) + L1d L#15 (32KB) + L1i L#15 (32KB) + Core L#15 + PU L#15 (P#15)</div></div><div><span style="font-size: 12pt;"><br></span></div><div><span style="font-size: 12pt;">After a few seconds :</span></div><div><div>kernel: [517453.738199] stress invoked oom-killer: gfp_mask=0x280da, order=0, oom_adj=0, oom_score_adj=0</div></div><div>(...)</div><div><div>kernel: [517453.738204] stress cpuset=235376[2] mems_allowed=0</div></div><div>(...)</div><div><br></div><div>After reading qsub options, "-n" option can "solve" the problem... but it's a big waste of cpu in this case (all the node is dedicated for this job).</div><div><br></div><div>Is there a way to allow a job to use all memory of a node without using all cpu ?</div><div><br></div><div>Many thanks in advance.</div>                                               </div></body>
</html>