<div>Here is the diagnose -j on these two jobs that are running on node28:</div>
<div>/==============================/</div>
<div>diagnose -j 228620<br>Name&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; State Par Proc QOS&nbsp;&nbsp;&nbsp;&nbsp; WCLimit R&nbsp; Min&nbsp;&nbsp;&nbsp;&nbsp; User&nbsp;&nbsp;&nbsp; Group&nbsp; Account&nbsp; QueuedTime&nbsp; Network&nbsp; Opsys&nbsp;&nbsp; Arch&nbsp;&nbsp;&nbsp; Mem&nbsp;&nbsp; Disk&nbsp; Procs&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Class Features</div>
<p>228620&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Running DEF&nbsp;&nbsp;&nbsp; 1 low 10:00:00:00 1&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; ad_user&nbsp;&nbsp;&nbsp; pu_group&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -&nbsp;&nbsp;&nbsp;&nbsp; 2:49:41&nbsp;&nbsp; [NONE] [NONE] [NONE]&nbsp;&nbsp;&nbsp; &gt;=0&nbsp;&nbsp;&nbsp; &gt;=0&nbsp;&nbsp;&nbsp; NC0&nbsp;&nbsp; [heavy:1] [NONE]<br>WARNING:&nbsp; job &#39;228620&#39; utilizes more memory than dedicated (3432 &gt; 512)</p>

<p>diagnose -j 228621<br>Name&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; State Par Proc QOS&nbsp;&nbsp;&nbsp;&nbsp; WCLimit R&nbsp; Min&nbsp;&nbsp;&nbsp;&nbsp; User&nbsp;&nbsp;&nbsp; Group&nbsp; Account&nbsp; QueuedTime&nbsp; Network&nbsp; Opsys&nbsp;&nbsp; Arch&nbsp;&nbsp;&nbsp; Mem&nbsp;&nbsp; Disk&nbsp; Procs&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Class Features</p>
<p>228621&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Running DEF&nbsp;&nbsp;&nbsp; 1 low 10:00:00:00 1&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; ad_user pu_group&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -&nbsp;&nbsp;&nbsp;&nbsp; 2:49:41&nbsp;&nbsp; [NONE] [NONE] [NONE]&nbsp;&nbsp;&nbsp; &gt;=0&nbsp;&nbsp;&nbsp; &gt;=0&nbsp;&nbsp;&nbsp; NC0&nbsp;&nbsp; [heavy:1] [NONE]<br>WARNING:&nbsp; job &#39;228621&#39; utilizes more memory than dedicated (3595 &gt; 512)</p>

<div>/==============================/</div>
<div>&nbsp;</div>
<div>And here is the checkjob -v on these two jobs:</div>
<div>&nbsp;</div>
<div>/==============================/</div>
<div>&nbsp;</div>
<div>checking job 228620 (RM job &#39;228620.cluster&#39;)</div>
<div>State: Running<br>Creds:&nbsp; user:ad_user&nbsp; group:pu_group&nbsp; class:heavy&nbsp; qos:low<br>WallTime: 6:31:31 of 10:00:00:00<br>SubmitTime: Tue Jan 29 16:14:14<br>&nbsp; (Time Queued&nbsp; Total: 00:00:01&nbsp; Eligible: 00:00:01)</div>
<div>StartTime: Tue Jan 29 16:14:15<br>Total Tasks: 1</div>
<div>Req[0]&nbsp; TaskCount: 1&nbsp; Partition: DEFAULT<br>Network: [NONE]&nbsp; Memory &gt;= 0&nbsp; Disk &gt;= 0&nbsp; Swap &gt;= 0<br>Opsys: [NONE]&nbsp; Arch: [NONE]&nbsp; Features: [NONE]<br>Exec:&nbsp; &#39;&#39;&nbsp; ExecSize: 0&nbsp; ImageSize: 0<br>Dedicated Resources Per Task: PROCS: 1&nbsp; MEM: 512M<br>
Utilized Resources Per Task:&nbsp; PROCS: 0.13&nbsp; MEM: 34.32&nbsp; SWAP: 35.44<br>Avg Util Resources Per Task:&nbsp; PROCS: 0.10<br>Max Util Resources Per Task:&nbsp; PROCS: 0.13&nbsp; MEM: 34.32&nbsp; SWAP: 35.44<br>Average Utilized Memory: 3408.54 MB<br>
Average Utilized Procs: 0.61<br>NodeAccess: SHARED<br>NodeCount: 1<br>Allocated Nodes:<br>[node28:1]<br>Task Distribution: node28</div>
<div><br>IWD: [NONE]&nbsp; Executable:&nbsp; [NONE]<br>Bypass: 0&nbsp; StartCount: 1<br>PartitionMask: [ALL]<br>SystemQueueTime: Tue Jan 29 19:53:18</div>
<div>Flags:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; RESTARTABLE</div>
<div>Reservation &#39;228620&#39; (-6:31:19 -&gt; 9:17:28:41&nbsp; Duration: 10:00:00:00)<br>PE:&nbsp; 1.00&nbsp; StartPriority:&nbsp; 200<br></div>
<div>&nbsp;</div>
<p>checking job 228621 (RM job &#39;228621.cluster&#39;)</p>
<p>State: Running<br>Creds:&nbsp; user:ad_user&nbsp; group:pu_group&nbsp; class:heavy&nbsp; qos:low<br>WallTime: 6:24:00 of 10:00:00:00<br>SubmitTime: Tue Jan 29 16:22:46<br>&nbsp; (Time Queued&nbsp; Total: 00:00:01&nbsp; Eligible: 00:00:01)</p>
<p>StartTime: Tue Jan 29 16:22:47<br>Total Tasks: 1</p>
<div>Req[0]&nbsp; TaskCount: 1&nbsp; Partition: DEFAULT<br>Network: [NONE]&nbsp; Memory &gt;= 0&nbsp; Disk &gt;= 0&nbsp; Swap &gt;= 0<br>Opsys: [NONE]&nbsp; Arch: [NONE]&nbsp; Features: [NONE]<br>Exec:&nbsp; &#39;&#39;&nbsp; ExecSize: 0&nbsp; ImageSize: 0<br>Dedicated Resources Per Task: PROCS: 1&nbsp; MEM: 512M<br>
Utilized Resources Per Task:&nbsp; PROCS: 0.10&nbsp; MEM: 35.95&nbsp; SWAP: 39.56<br>Avg Util Resources Per Task:&nbsp; PROCS: 0.08<br>Max Util Resources Per Task:&nbsp; PROCS: 0.10&nbsp; MEM: 35.95&nbsp; SWAP: 39.56<br>Average Utilized Memory: 3561.67 MB<br>
Average Utilized Procs: 0.58<br>NodeAccess: SHARED<br>NodeCount: 1<br>Allocated Nodes:<br>[node28:1]<br>Task Distribution: node28</div>
<div><br>IWD: [NONE]&nbsp; Executable:&nbsp; [NONE]<br>Bypass: 0&nbsp; StartCount: 1<br>PartitionMask: [ALL]<br>SystemQueueTime: Tue Jan 29 19:53:18</div>
<p>Flags:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; RESTARTABLE</p>
<p>Reservation &#39;228621&#39; (-6:23:49 -&gt; 9:17:36:11&nbsp; Duration: 10:00:00:00)<br>PE:&nbsp; 1.00&nbsp; StartPriority:&nbsp; 200</p>
<p>&nbsp;</p>
<div>/==============================/</div>
<div><br>what does the 0:4 means?</div>
<div>Could this be related to the way in which the user is running the job itself (the one that qsub runs) ?</div>
<div>Or should I check something in the nodes? something related to load average? else?<br>BTW, almost all of our jobs have the &#39;WARNING:&nbsp; job &#39;{job_id}&#39; utilizes more memory than dedicated (xxxx &gt; 512)&nbsp; . Should I change the default memory assigned for the jobs? Currently the default is 512MB.<br>
<br></div>
<div class="gmail_quote">On Jan 29, 2008 10:36 PM, Jan Ploski &lt;<a href="mailto:Jan.Ploski@offis.de">Jan.Ploski@offis.de</a>&gt; wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">
<div class="Ih2E3d"><br><br>&nbsp;</div>Can you also report the output of checkjob and diagnose -j on these 2<br>jobs? Do they also have the MEM requirement?<br>
<div class="Ih2E3d"><br>&gt; About the MEM requirement: do you mean to unset it to? other than that<br>&gt; we don&#39;t use any MEM requierment in our qsub script.<br><br></div>Well, it must be coming from somewhere, quite possibly from a default in<br>
the queue or server configuration. So I&#39;d try unsetting it there.<br>However, looking at the diagnose -n output above makes me think it is<br>processor related - judging from the 0:4, for some unknown reason your<br>jobs consume 2 processors each rather than 1.<br>
<br>Regards,<br><font color="#888888">Jan Ploski<br></font></blockquote></div><br>