<br><br><div class="gmail_quote">On Tue, May 15, 2012 at 9:12 AM, Josh Nielsen <span dir="ltr">&lt;<a href="mailto:jnielsen@hudsonalpha.com" target="_blank">jnielsen@hudsonalpha.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hello,<br><br>I noticed recently on our Torque cluster (3.0.2) that it is only allowing one job per node and it is only assigning one CPU core for each job even though there are eight per node (so it is not maxing out the resources - and is wasting/not utilizing seven cores per node). After looking around for a while I found a comment elsewhere on this mailing list about compiling torque with the --enable-cpuset flag. I read the Torque page about cpusets but am none the wiser about whether that is a required feature to allow, what I would have thought to be default functionality of allowing, more than one process/job to run on a node (and to utilize more than one core per job). <br>
</blockquote><div><br>Josh, <br><br>npp is getting treated as a feature and you do not have that as a feature. What you really want is ppn.<br><br>echo &quot;sleep 60; echo test&quot; | qsub -l nodes=1:ppn=1<br><br>This should fix your problem.<br>
<br>Ken<br> <br></div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>If I specify any npp=* value with qsub, even if only one (like echo &quot;sleep 60; echo test&quot; | qsub -l nodes=1:npp=1), I get the message &quot;qsub: Job exceeds queue resource limits MSG=cannot locate feasible nodes&quot;. And during the course of scheduling jobs, once there are more jobs requested than there are nodes then they are listed as queued and in the sched_log/ log files I see &quot;Not enough of the right type of nodes available&quot; for each new request. I also tried adding np=8 to each of the nodes listed in server_priv/nodes since I had not before, but it did not change anything.<br>

<br>I will post my Torque config below, but I&#39;m curious to know if --enable-cpuset is what I need, since it is not made explicit that it is a required flag to allow more than one job to run per node. Setting the default and max settings was my attempt to get this working, although we have another cluster that doesn&#39;t specify any of that and it runs as expected by reserving the amount of cpus per node that you request with npp.<br>

<br><div>qmgr -c &quot;print server&quot;</div><div>#</div><div># Create queues and set their attributes.</div><div>#</div><div>#</div><div># Create and define queue batch</div><div>#</div><div>create queue batch</div><div>

set queue batch queue_type = Execution</div><div>set queue batch resources_max.ncpus = 8</div><div>set queue batch resources_max.nodes = 2</div><div>set queue batch resources_min.ncpus = 1</div><div>set queue batch resources_default.ncpus = 1</div>

<div>set queue batch resources_default.nodect = 1</div><div>set queue batch resources_default.nodes = 1</div><div>set queue batch resources_default.walltime = 32:00:00</div><div>set queue batch enabled = True</div><div>set queue batch started = True</div>

<div>#</div><div># Set server attributes.</div><div>#</div><div>set server scheduling = True</div><div>set server acl_hosts = <a href="http://penguin-head01.compute.haib.org" target="_blank">penguin-head01.compute.haib.org</a></div>
<div>
set server managers = <a href="mailto:root@penguin-head01.compute.haib.org" target="_blank">root@penguin-head01.compute.haib.org</a></div><div>set server operators = <a href="mailto:root@penguin-head01.compute.haib.org" target="_blank">root@penguin-head01.compute.haib.org</a></div>

<div>set server default_queue = batch</div><div>set server log_events = 511</div><div>set server mail_from = adm</div><div>set server scheduler_iteration = 600</div><div>set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div>

<div>set server mom_job_sync = True</div><div>set server keep_completed = 300</div><div>set server next_job_number = 554</div><div>------------------------</div><div><div><br>qmgr -c &quot;list server&quot;</div><div>Server <a href="http://penguin-head01.compute.haib.org" target="_blank">penguin-head01.compute.haib.org</a></div>

<div><span style="white-space:pre-wrap">        </span>server_state = Active</div><div><span style="white-space:pre-wrap">        </span>scheduling = True</div><div><span style="white-space:pre-wrap">        </span>total_jobs = 0</div>
<div><span style="white-space:pre-wrap">        </span>state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0 </div><div><span style="white-space:pre-wrap">        </span>acl_hosts = <a href="http://penguin-head01.compute.haib.org" target="_blank">penguin-head01.compute.haib.org</a></div>

<div><span style="white-space:pre-wrap">        </span>managers = <a href="mailto:root@penguin-head01.compute.haib.org" target="_blank">root@penguin-head01.compute.haib.org</a></div><div><span style="white-space:pre-wrap">        </span>operators = <a href="mailto:root@penguin-head01.compute.haib.org" target="_blank">root@penguin-head01.compute.haib.org</a></div>

<div><span style="white-space:pre-wrap">        </span>default_queue = batch</div><div><span style="white-space:pre-wrap">        </span>log_events = 511</div><div><span style="white-space:pre-wrap">        </span>mail_from = adm</div>
<div><span style="white-space:pre-wrap">        </span>resources_assigned.ncpus = 0</div><div><span style="white-space:pre-wrap">        </span>resources_assigned.nodect = 0</div><div><span style="white-space:pre-wrap">        </span>scheduler_iteration = 600</div>

<div><span style="white-space:pre-wrap">        </span>node_check_rate = 150</div><div><span style="white-space:pre-wrap">        </span>tcp_timeout = 6</div><div><span style="white-space:pre-wrap">        </span>mom_job_sync = True</div>
<div><span style="white-space:pre-wrap">        </span>pbs_version = 3.0.2</div><div><span style="white-space:pre-wrap">        </span>keep_completed = 300</div><div><span style="white-space:pre-wrap">        </span>next_job_number = 554</div>

<div><span style="white-space:pre-wrap">        </span>net_counter = 2 0 0</div></div><div><br></div><div><br></div><div>Any suggestions would be appreciated!<br><br>Thanks,<br>Josh</div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br>