<div dir="ltr">Hi Gus,<div><br></div><div style>If I start enough jobs to fill all available CPUs plus a few extra then torque will launch enough jobs to fill all available CPUs and queue the remainder until a CPU becomes available. So everything is fine, that is what I would expect.</div>
<div style><br></div><div style>Andrew</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 8 February 2013 16:29, Gustavo Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu" target="_blank">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Thank you Adrew.<br>
<br>
What happens if you launch enough jobs to fill out enough &quot;nodes&quot;<br>
that were assigned to resources_available.nodes (server and queues),<br>
but that do not actually exist physically (or as described by the nodes *file* in<br>
the server_priv directory)?<br>
<br>
For instance, if you set resources_available.nodes=41 (the number of cores/processors,<br>
not actual nodes in your cluster, IIRR), then launch enough jobs to fill 41 nodes,<br>
will all those jobs run, or will the actual nodes information stored in the nodes<br>
*file* take precedence?<br>
I.e. will the physical nodes-and-processors get oversubscribed,<br>
or will some jobs sit and wait in Q (queued) state,<br>
and Torque will only  run (R state) enough jobs to<br>
fill the physical nodes-and-cores available?<br>
<br>
I confess I find the context-dependent intepretation of the word &quot;node&quot;<br>
by Torque more harmful than helpful.<br>
It may also interact in unclear ways with<br>
the scheduler settings (eg. Maui).<br>
Maybe the context-dependent interpretation is to keep up with legacy interpretations.<br>
I would rather like a more rigid (and hopefully less confusing)<br>
notion of what a node and a processor are, even with the current blurring of  the<br>
dividing line by multicore processors, gpus, etc.<br>
<br>
I cannot test this now.  The cluster is a production machine,<br>
and now it is down due to a blizzard here.<br>
<br>
Thank you,<br>
Gus Correa<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<br>
On Feb 8, 2013, at 11:04 AM, Andrew Dawson wrote:<br>
<br>
&gt; For others who are interested, the guidance at <a href="http://docs.adaptivecomputing.com/torque/Content/topics/11-troubleshooting/faq.htm#qsubNotAllow" target="_blank">http://docs.adaptivecomputing.com/torque/Content/topics/11-troubleshooting/faq.htm#qsubNotAllow</a> resolves my particular issue, so thanks Michel!<br>

&gt;<br>
&gt;<br>
&gt; On 7 February 2013 21:40, Gus Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt; wrote:<br>
&gt; Hi Andrew<br>
&gt;<br>
&gt; I never got much luck with procs=YZ,<br>
&gt; which is likely to be the syntax that matches what you want to do.<br>
&gt; Maui (the scheduler I use) seems not to understand that<br>
&gt; syntax very well.<br>
&gt;<br>
&gt; I wouldn&#39;t rely completely on the Torque documentation.<br>
&gt; It has good guidelines, but may have mistakes in the details.<br>
&gt; Trial and error may be the way to check what works for you.<br>
&gt; I wonder if the error message you see may come<br>
&gt; from different interpretations given to the word &quot;node&quot;<br>
&gt; by the torque server (pbs_server) and the scheduler (which<br>
&gt; maybe Maui, pbs_sched or perhaps Moab).<br>
&gt;<br>
&gt; If you want also to control to which nodes<br>
&gt; (and sockets and cores) each MPI *process* is sent to,<br>
&gt; I suggest that you build OpenMPI with Torque support.<br>
&gt; OpenMPI when built with Torque support<br>
&gt; will use the nodes and processors assigned<br>
&gt; by Torque to that job,<br>
&gt; but you can still decide how the sockets and<br>
&gt; cores are distributed among the various MPI processes,<br>
&gt; through switches to mpiexec such as --bynode, --bysocket,<br>
&gt; --bycore, or even finer control through their &quot;rankfiles&quot;.<br>
&gt;<br>
&gt; I hope this helps,<br>
&gt; Gus Correa<br>
&gt;<br>
&gt; On 02/07/2013 03:54 PM, Andrew Dawson wrote:<br>
&gt; &gt; Hi Gus,<br>
&gt; &gt;<br>
&gt; &gt; Yes I can do that. What I would like to do is be able to have users<br>
&gt; &gt; request the number of CPUs for an MPI job and not have to care how these<br>
&gt; &gt; CPUs are distributed across physical nodes. If I do<br>
&gt; &gt;<br>
&gt; &gt; #PBS -l nodes=1:ppn=8<br>
&gt; &gt;<br>
&gt; &gt; then this will mean the job has to wait until there are 8 CPUs on one<br>
&gt; &gt; physical node before starting, correct?<br>
&gt; &gt;<br>
&gt; &gt;  From the torque documentation, it seems to say I can do:<br>
&gt; &gt;<br>
&gt; &gt; #PBS -l nodes=8<br>
&gt; &gt;<br>
&gt; &gt; and this will be interpreted as 8 CPUs rather than 8 physical nodes.<br>
&gt; &gt; This is what I want. Unfortunately I get the error message at submission<br>
&gt; &gt; time saying there are not enough resources to fulfill this request, even<br>
&gt; &gt; though there are 33 CPUs in the system. If on my system I do<br>
&gt; &gt;<br>
&gt; &gt; #PBS -l nodes=5<br>
&gt; &gt;<br>
&gt; &gt; then my MPI job gets sent to 5 CPUs, not necessarily on the same<br>
&gt; &gt; physical node, which is great and exactly what I want. I would therefore<br>
&gt; &gt; expect this to work for larger numbers but it seems that at submission<br>
&gt; &gt; time the request is checked against the number of physical nodes rather<br>
&gt; &gt; than virtual processors, meaning I cannot do this! It is quite frustrating.<br>
&gt; &gt;<br>
&gt; &gt; Please ask if there is further clarification I can make.<br>
&gt; &gt;<br>
&gt; &gt; Andrew<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; On 7 February 2013 19:28, Gus Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a><br>
&gt; &gt; &lt;mailto:<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;&gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt;     Hi Andrew<br>
&gt; &gt;<br>
&gt; &gt;     Not sure I understood what exactly you want to do,<br>
&gt; &gt;     but have you tried this?<br>
&gt; &gt;<br>
&gt; &gt;     #PBS -l nodes=1:ppn=8<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;     It will request one node with 8 processors.<br>
&gt; &gt;<br>
&gt; &gt;     I hope this helps,<br>
&gt; &gt;     Gus Correa<br>
&gt; &gt;<br>
&gt; &gt;     On 02/07/2013 11:38 AM, Andrew Dawson wrote:<br>
&gt; &gt;      &gt; Nodes file looks like this:<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt; cirrus np=1<br>
&gt; &gt;      &gt; cirrus1 np=8<br>
&gt; &gt;      &gt; cirrus2 np=8<br>
&gt; &gt;      &gt; cirrus3 np=8<br>
&gt; &gt;      &gt; cirrus4 np=8<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt; On 7 Feb 2013 16:25, &quot;Ricardo Román Brenes&quot;<br>
&gt; &gt;     &lt;<a href="mailto:roman.ricardo@gmail.com">roman.ricardo@gmail.com</a> &lt;mailto:<a href="mailto:roman.ricardo@gmail.com">roman.ricardo@gmail.com</a>&gt;<br>
&gt; &gt;      &gt; &lt;mailto:<a href="mailto:roman.ricardo@gmail.com">roman.ricardo@gmail.com</a><br>
&gt; &gt;     &lt;mailto:<a href="mailto:roman.ricardo@gmail.com">roman.ricardo@gmail.com</a>&gt;&gt;&gt; wrote:<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;     hi!<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;     How does your node config file looks like?<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;     On Thu, Feb 7, 2013 at 3:10 AM, Andrew Dawson<br>
&gt; &gt;     &lt;<a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a> &lt;mailto:<a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a>&gt;<br>
&gt; &gt;      &gt; &lt;mailto:<a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a> &lt;mailto:<a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a>&gt;&gt;&gt; wrote:<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         Hi all,<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         I&#39;m configuring a recent torque/maui installation and I&#39;m<br>
&gt; &gt;     having<br>
&gt; &gt;      &gt;         trouble with submitting MPI jobs. I would like for MPI<br>
&gt; &gt;     jobs to<br>
&gt; &gt;      &gt;         specify the number of processors they require and have those<br>
&gt; &gt;      &gt;         come from any available physical machine, the users shouldn&#39;t<br>
&gt; &gt;      &gt;         need to specify processors per node etc.<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         The torque manual says that the nodes option is mapped to<br>
&gt; &gt;      &gt;         virtual processors, so for example:<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;              #PBS -l nodes=8<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         should request 8 virtual processors. The problem I&#39;m<br>
&gt; &gt;     having is<br>
&gt; &gt;      &gt;         that our cluster currently has only 5 physical machines<br>
&gt; &gt;     (nodes),<br>
&gt; &gt;      &gt;         and setting nodes to anything greater than 5 gives the error:<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;              qsub: Job exceeds queue resource limits MSG=cannot<br>
&gt; &gt;     locate<br>
&gt; &gt;      &gt;         feasible nodes (nodes file is empty or all systems are busy)<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         I&#39;m confused by this, we have 33 virtual processors available<br>
&gt; &gt;      &gt;         across the 5 nodes (4 8-core machines and one single<br>
&gt; &gt;     core) so my<br>
&gt; &gt;      &gt;         interpretation of the manual is that I should be able to<br>
&gt; &gt;     request<br>
&gt; &gt;      &gt;         8 nodes, since these should be understood as virtual<br>
&gt; &gt;     processors?<br>
&gt; &gt;      &gt;         Am I doing something wrong?<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         I tried setting<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         #PBS -l procs=8<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         but that doesn&#39;t seem to do anything, MPI stops due to having<br>
&gt; &gt;      &gt;         only 1 worker available (single core allocated to the job).<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         Thanks,<br>
&gt; &gt;      &gt;         Andrew<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         p.s.<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         The queue I&#39;m submitting jobs to is defined as:<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         create queue normal<br>
&gt; &gt;      &gt;         set queue normal queue_type = Execution<br>
&gt; &gt;      &gt;         set queue normal resources_min.cput = 12:00:00<br>
&gt; &gt;      &gt;         set queue normal resources_default.cput = 24:00:00<br>
&gt; &gt;      &gt;         set queue normal disallowed_types = interactive<br>
&gt; &gt;      &gt;         set queue normal enabled = True<br>
&gt; &gt;      &gt;         set queue normal started = True<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         and we are using torque version 2.5.12 and we are using maui<br>
&gt; &gt;      &gt;         3.3.1 for scheduling<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;         _______________________________________________<br>
&gt; &gt;      &gt;         torqueusers mailing list<br>
&gt; &gt;      &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt; &gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;&gt;<br>
&gt; &gt;      &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;     _______________________________________________<br>
&gt; &gt;      &gt;     torqueusers mailing list<br>
&gt; &gt;      &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt; &gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;&gt;<br>
&gt; &gt;      &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt;<br>
&gt; &gt;      &gt; _______________________________________________<br>
&gt; &gt;      &gt; torqueusers mailing list<br>
&gt; &gt;      &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt; &gt;      &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt; &gt;<br>
&gt; &gt;     _______________________________________________<br>
&gt; &gt;     torqueusers mailing list<br>
&gt; &gt;     <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt; &gt;     <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Dr Andrew Dawson<br>
&gt; &gt; Atmospheric, Oceanic &amp; Planetary Physics<br>
&gt; &gt; Clarendon Laboratory<br>
&gt; &gt; Parks Road<br>
&gt; &gt; Oxford OX1 3PU, UK<br>
&gt; &gt; Tel: <a href="tel:%2B44%20%280%291865%20282438" value="+441865282438">+44 (0)1865 282438</a><br>
&gt; &gt; Email: <a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a> &lt;mailto:<a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a>&gt;<br>
&gt; &gt; Web Site: <a href="http://www2.physics.ox.ac.uk/contacts/people/dawson" target="_blank">http://www2.physics.ox.ac.uk/contacts/people/dawson</a><br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; torqueusers mailing list<br>
&gt; &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Dr Andrew Dawson<br>
&gt; Atmospheric, Oceanic &amp; Planetary Physics<br>
&gt; Clarendon Laboratory<br>
&gt; Parks Road<br>
&gt; Oxford OX1 3PU, UK<br>
&gt; Tel: <a href="tel:%2B44%20%280%291865%20282438" value="+441865282438">+44 (0)1865 282438</a><br>
&gt; Email: <a href="mailto:dawson@atm.ox.ac.uk">dawson@atm.ox.ac.uk</a><br>
&gt; Web Site: <a href="http://www2.physics.ox.ac.uk/contacts/people/dawson" target="_blank">http://www2.physics.ox.ac.uk/contacts/people/dawson</a><br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>Dr Andrew Dawson<br>Atmospheric, Oceanic &amp; Planetary Physics<br>Clarendon Laboratory<br>Parks Road<br>Oxford OX1 3PU, UK<br>Tel: +44 (0)1865 282438<br>
Email: <a href="mailto:dawson@atm.ox.ac.uk" target="_blank">dawson@atm.ox.ac.uk</a><div>Web Site: <a href="http://www2.physics.ox.ac.uk/contacts/people/dawson" target="_blank">http://www2.physics.ox.ac.uk/contacts/people/dawson</a></div>

</div>