I removed NODEALLOCATIONPOLICY and tried again, this time it started the job but the node allocation was not as expected.<br><br>The job needs 1 node with 2 proc and 3 nodes with 1 proc each. The allocation was done on only 3 nodes. 2 with 2 procs and 1 with 1 proc. Not sure if this is a bug or some conflicts in the configuration.<br>

<br>My current additional configurations are :<br><br>BACKFILLPOLICY        FIRSTFIT<br>RESERVATIONPOLICY     CURRENTHIGHEST<br><br>ENABLEMULTIREQJOBS TRUE<br>JOBNODEMATCHPOLICY EXACTNODE<br>NODEACCESSPOLICY SINGLEJOB<br>

<br>I also tried with this, but still the same :<br><br>BACKFILLPOLICY        FIRSTFIT<br>RESERVATIONPOLICY     CURRENTHIGHEST<br><br>ENABLEMULTIREQJOBS TRUE<br>
NODEALLOCATIONPOLICY PRIORITY<br>
NODECFG[DEFAULT] PRIORITYF=&#39;APROCS&#39;<br>
JOBNODEMATCHPOLICY EXACTNODE<br>
NODEACCESSPOLICY SINGLEJOB<br><br>Any suggestions ?<br><br>Thanks,<br>Kunal<br><br><br><div class="gmail_quote">On Thu, May 31, 2012 at 10:26 PM, Kunal Rao <span dir="ltr">&lt;<a href="mailto:kunalgrao@gmail.com" target="_blank">kunalgrao@gmail.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">I need NODEACCESSPOLICY, maybe I&#39;ll remove NODEALLOCATIONPOLICY and check tomorrow.<div><br></div>

<div>Thanks,</div><div>Kunal<div><div class="h5"><br><br><div class="gmail_quote">On Thu, May 31, 2012 at 10:23 PM, Ju JiaJia <span dir="ltr">&lt;<a href="mailto:jujj603@gmail.com" target="_blank">jujj603@gmail.com</a>&gt;</span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>Seems all be ok. I think you could try to delete the additional configuration in maui.cfg. like <span>NODEALLOCATIONPOLICY, </span><span>NODEACCESSPOLICY, or use default or other options.</span></div>


<div><div><div>
<span><br></span></div><br><div class="gmail_quote">On Fri, Jun 1, 2012 at 9:59 AM, Kunal Rao <span dir="ltr">&lt;<a href="mailto:kunalgrao@gmail.com" target="_blank">kunalgrao@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">



Each node has 16 cores. TORQUE_HOME/sever_priv/nodes file has for each of the 10 nodes :<div><br></div><div>&lt;node_name&gt; np=16 gpus=1</div><div><br></div><div>Thanks,</div><div>Kunal<div><div><br><div><br>
<div class="gmail_quote">

On Thu, May 31, 2012 at 9:54 PM, Ju JiaJia <span dir="ltr">&lt;<a href="mailto:jujj603@gmail.com" target="_blank">jujj603@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





How many cores on each of the 10 nodes ? I mean you are trying to allocate 2 processors on one node. And how did you configure TORQUE_HOME/server_priv/nodes ?<div><div><br><br><div class="gmail_quote">

On Fri, Jun 1, 2012 at 8:54 AM, Kunal Rao <span dir="ltr">&lt;<a href="mailto:kunalgrao@gmail.com" target="_blank">kunalgrao@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Queue / Server configuration :<br>
<br>
---------------<br>
<br>
qmgr -c &#39;p s&#39;<br>
#<br>
# Create queues and set their attributes.<br>
#<br>
#<br>
# Create and define queue batch<br>
#<br>
create queue batch<br>
set queue batch queue_type = Execution<br>
set queue batch resources_default.nodes = 1<br>
set queue batch resources_default.walltime = 01:00:00<br>
set queue batch enabled = True<br>
set queue batch started = True<br>
#<br>
# Set server attributes.<br>
#<br>
set server scheduling = True<br>
set server acl_hosts = fire16<br>
set server acl_roots = root@fire16.csa.local<br>
set server managers = root@fire16.csa.local<br>
set server operators = root@fire16.csa.local<br>
set server default_queue = batch<br>
set server log_events = 511<br>
set server mail_from = adm<br>
set server scheduler_iteration = 20<br>
set server node_check_rate = 150<br>
set server tcp_timeout = 6<br>
set server mom_job_sync = True<br>
set server keep_completed = 300<br>
set server allow_node_submit = True<br>
set server next_job_number = 6331<br>
<br>
---------------<br>
<br>
Job resource requirement :<br>
<br>
---------<br>
<br>
#PBS -l nodes=1:ppn=2+3,walltime=0:05:00<br>
<br>
---------<br>
<br>
&quot;pbsnodes -a&quot; shows all the 10 nodes in &quot;free&quot; state. So, they are all<br>
accessible.<br>
<br>
Thanks,<br>
Kunal<br>
<div><div><br>
<br>
On 5/31/12, Ju JiaJia &lt;<a href="mailto:jujj603@gmail.com" target="_blank">jujj603@gmail.com</a>&gt; wrote:<br>
&gt; Please give your queue/server configuration and your job&#39;s resources need,<br>
&gt; cpu/memory etc.  And Does all the 10 nodes accessable? You can use pbsnodes<br>
&gt; to check this.<br>
&gt;<br>
&gt; On Thu, May 31, 2012 at 10:53 PM, Kunal Rao &lt;<a href="mailto:kunalgrao@gmail.com" target="_blank">kunalgrao@gmail.com</a>&gt; wrote:<br>
&gt;<br>
&gt;&gt; Hello,<br>
&gt;&gt;<br>
&gt;&gt; Please see the below message. I had posted it on maui users mailing list,<br>
&gt;&gt; but did not get any response, so thought of posting it here on torque<br>
&gt;&gt; users<br>
&gt;&gt; mailing list (incase someone would know). Kindly let me know if you have<br>
&gt;&gt; any comments / ideas / suggestions.<br>
&gt;&gt;<br>
&gt;&gt; Thanks,<br>
&gt;&gt; Kunal<br>
&gt;&gt;<br>
&gt;&gt; ---------- Forwarded message ----------<br>
&gt;&gt; From: Kunal Rao &lt;<a href="mailto:kunalgrao@gmail.com" target="_blank">kunalgrao@gmail.com</a>&gt;<br>
&gt;&gt; Date: Wed, May 23, 2012 at 2:30 PM<br>
&gt;&gt; Subject: Re: Multi-req job not starting<br>
&gt;&gt; To: <a href="mailto:mauiusers@supercluster.org" target="_blank">mauiusers@supercluster.org</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; There was a similar post earlier :<br>
&gt;&gt; <a href="http://www.clusterresources.com/pipermail/mauiusers/2009-July/003930.html" target="_blank">http://www.clusterresources.com/pipermail/mauiusers/2009-July/003930.html</a><br>
&gt;&gt;<br>
&gt;&gt; But did not find any response to it. Can anyone please provide some ideas<br>
&gt;&gt; / suggestion on this issue.<br>
&gt;&gt;<br>
&gt;&gt; Thanks,<br>
&gt;&gt; Kunal<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; On Wed, May 23, 2012 at 2:26 PM, Kunal Rao &lt;<a href="mailto:kunalgrao@gmail.com" target="_blank">kunalgrao@gmail.com</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt;&gt; Hello,<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I have a 10 node cluster. There are 3 jobs. 1 which needs 2 nodes ( with<br>
&gt;&gt;&gt; 1 task per node ), another which needs 4 nodes (with 1 task per node)<br>
&gt;&gt;&gt; and<br>
&gt;&gt;&gt; the third one which needs 4 nodes (  with 2 task on 1 node and 1 task<br>
&gt;&gt;&gt; each<br>
&gt;&gt;&gt; on the other 3 nodes ).<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Additional configuration in maui.cfg is :<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; BACKFILLPOLICY        FIRSTFIT<br>
&gt;&gt;&gt; RESERVATIONPOLICY     CURRENTHIGHEST<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; ENABLEMULTIREQJOBS TRUE<br>
&gt;&gt;&gt; NODEALLOCATIONPOLICY  MINRESOURCE<br>
&gt;&gt;&gt; NODEACCESSPOLICY SINGLEJOB<br>
&gt;&gt;&gt; JOBNODEMATCHPOLICY EXACTNODE<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I am observing that if the first 2 jobs are running, the third one does<br>
&gt;&gt;&gt; not start ( even though 4 nodes are available ) until 1 of the jobs<br>
&gt;&gt;&gt; complete. With checkjob -v &lt;job_id&gt; it shows the following output :<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; ------------------<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; checking job 5791 (RM job &#39;5791.fire16.csa.local&#39;)<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; State: Idle<br>
&gt;&gt;&gt; Creds:  user:kunal  group:kunal  class:batch  qos:DEFAULT<br>
&gt;&gt;&gt; WallTime: 00:00:00 of 00:04:51<br>
&gt;&gt;&gt; SubmitTime: Wed May 23 11:52:04<br>
&gt;&gt;&gt;   (Time Queued  Total: 00:48:52  Eligible: 00:48:52)<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; StartDate: 00:00:01  Wed May 23 12:40:57<br>
&gt;&gt;&gt; Total Tasks: 2<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Req[0]  TaskCount: 2  Partition: ALL<br>
&gt;&gt;&gt; Network: [NONE]  Memory &gt;= 0  Disk &gt;= 0  Swap &gt;= 0<br>
&gt;&gt;&gt; Opsys: [NONE]  Arch: [NONE]  Features: [NONE]<br>
&gt;&gt;&gt; Exec:  &#39;&#39;  ExecSize: 0  ImageSize: 0<br>
&gt;&gt;&gt; Dedicated Resources Per Task: PROCS: 1<br>
&gt;&gt;&gt; NodeAccess: SINGLEJOB<br>
&gt;&gt;&gt; TasksPerNode: 2  NodeCount: 1<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Req[1]  TaskCount: 3  Partition: ALL<br>
&gt;&gt;&gt; Network: [NONE]  Memory &gt;= 0  Disk &gt;= 0  Swap &gt;= 0<br>
&gt;&gt;&gt; Opsys: [NONE]  Arch: [NONE]  Features: [NONE]<br>
&gt;&gt;&gt; Exec:  &#39;&#39;  ExecSize: 0  ImageSize: 0<br>
&gt;&gt;&gt; Dedicated Resources Per Task: PROCS: 1<br>
&gt;&gt;&gt; NodeAccess: SINGLEJOB<br>
&gt;&gt;&gt; NodeCount: 3<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; IWD: [NONE]  Executable:  [NONE]<br>
&gt;&gt;&gt; Bypass: 5  StartCount: 0<br>
&gt;&gt;&gt; PartitionMask: [ALL]<br>
&gt;&gt;&gt; Flags:       RESTARTABLE<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Reservation &#39;5791&#39; (00:00:01 -&gt; 00:04:52  Duration: 00:04:51)<br>
&gt;&gt;&gt; PE:  5.00  StartPriority:  48<br>
&gt;&gt;&gt; cannot select job 5791 for partition DEFAULT (startdate in &#39;00:00:01&#39;)<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; ------------<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; What could be the reason for not starting this job ? How do I resolve<br>
&gt;&gt;&gt; this ?<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Thanks,<br>
&gt;&gt;&gt; Kunal<br>
&gt;&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; torqueusers mailing list<br>
&gt;&gt; <a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
&gt;&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div></div></div></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div></div></div>
</blockquote></div><br>