<div dir="ltr"><div><div>I was under the same impression as Glen. When we apply the -l nodes=n syntax, the system only runs UP TO 5 processes, which is the total number of nodes in my nodes file, thus completely ignoring the configuration of processors on the nodes.<br>
<br></div>I removed/unset the resources_default.nodes value in qmgr and restarted the server as some folks said it can conflict with the schedulers allocation. This made no difference.<br><br></div>I am aware TORQUE applies a default cpu value of 1 when no value is given, however with the np designations in the nodes file and the -l procs=n values being passed, why is TORQUE still ignoring this?<br>
</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Dec 16, 2013 at 1:26 PM, Glen Beane <span dir="ltr">&lt;<a href="mailto:glen.beane@gmail.com" target="_blank">glen.beane@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I thought this had been fixed and procs had been made a real resource in Torque (meaning it works as expected with qrun or pbs_sched).  I think the problem here is Maui.<br>
</div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br>
<br><div class="gmail_quote">On Mon, Dec 16, 2013 at 2:51 PM, Ken Nielson <span dir="ltr">&lt;<a href="mailto:knielson@adaptivecomputing.com" target="_blank">knielson@adaptivecomputing.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr"><div><div>Kevin,<br><br></div>procs is a pass through resource for TORQUE. That is, TORQUE only allows it to be accepted because it will hand it to the scheduler and the scheduler will interpret the command. Depending on how you have qmgr configured the default number of nodes for a job is one with just one proc from TORQUE. <br>


<br></div>You could use -l nodes=x instead. Otherwise, it is up to Maui to interpret the meaning of procs.<br></div><div class="gmail_extra"><br><br><div class="gmail_quote"><div><div>On Mon, Dec 16, 2013 at 11:42 AM, Kevin Sutherland <span dir="ltr">&lt;<a href="mailto:sutherland.kevinr@gmail.com" target="_blank">sutherland.kevinr@gmail.com</a>&gt;</span> wrote:<br>


</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div><div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div><div><div><div>
Greetings,<br><br>I have posted this on both torque and maui user boards as I am unsure whether the issue is in maui or torque (although we had this same problem before we ran maui)<br>

</div><div><br>I am configuring a cluster for engineering simulation use at my office. We have two clusters (one with 12 nodes and 16 processors per node and the other is a 5 node cluster with 16 processors per node, except for a bigmem machine with 32 processors).<br>



<br></div>I am only working on the 5 node cluster at this time, but the behavior I am dealing with is on both clusters. When the procs syntax is used, the system is defaulting to 1 process, even though procs is &gt; 1. All nodes show free when issuing qnodes or pbsnodes -a and list the appropriate number of cpus defined in the nodes file.<br>



<br></div>I have a simple test script:<br><br></div>#!/bin/bash<br><br></div>#PBS -S /bin/bash<br></div>#PBS -l nodes=2:ppn=8<br></div>#PBS -j oe<br><br>cat $PBS_NODEFILE<br><br></div>This script prints out:<br><br>pegasus.am1.mnet<br>



pegasus.am1.mnet<br>pegasus.am1.mnet<br>pegasus.am1.mnet<br>pegasus.am1.mnet<br>pegasus.am1.mnet<br>pegasus.am1.mnet<br>pegasus.am1.mnet<br>amdfr1.am1.mnet<br>amdfr1.am1.mnet<br>amdfr1.am1.mnet<br>amdfr1.am1.mnet<br>amdfr1.am1.mnet<br>



amdfr1.am1.mnet<br>amdfr1.am1.mnet<br>amdfr1.am1.mnet<br><br></div>Which is expected. When I change the PBS resource list to:<br><br></div>#PBS -l procs=32<br><br></div>I get the following:<br><br></div>pegasus.am1.mnet<br>



<br></div>The machine filed created in /var/spool/torque/aux simply has 1 entry for 1 process, even though I requested 32. We have a piece of simulation software that REQUIRES the use of the &quot;-l procs=n&quot; syntax to function on the cluster. (ANSYS does not plan to permit changes to this until Release 16 in 2015) We are trying to use our cluster with Ansys RSM with CFX and Fluent.<br>



<br></div>We are running torque 4.2.6.1 and Maui 3.3.1.<br><br></div>My queue and server attributes are defined as follows:<br><br>#<br># Create queues and set their attributes.<br>#<br>#<br># Create and define queue batch<br>



#<br>create queue batch<br>set queue batch queue_type = Execution<br>set queue batch resources_default.walltime = 01:00:00<br>set queue batch enabled = True<br>set queue batch started = True<br>#<br># Set server attributes.<br>



#<br>set server scheduling = True<br>set server acl_hosts = titan1.am1.mnet<br>set server managers = kevin@titan1.am1.mnet<br>set server managers += root@titan1.am1.mnet<br>set server operators = kevin@titan1.am1.mnet<br>



set server operators += root@titan1.am1.mnet<br>set server default_queue = batch<br>set server log_events = 511<br>set server mail_from = adm<br>set server scheduler_iteration = 600<br>set server node_check_rate = 150<br>



set server tcp_timeout = 300<br>set server job_stat_rate = 45<br>set server poll_jobs = True<br>set server mom_job_sync = True<br>set server keep_completed = 300<br>set server submit_hosts = titan1.am1.mnet<br>set server next_job_number = 8<br>



set server moab_array_compatible = True<br>set server nppcu = 1<br><br><div><div><div><div>My torque nodes file is:<br><br>titan1.am1.mnet np=16 RAM64GB<br>titan2.am1.mnet np=16 RAM64GB<br>amdfl1.am1.mnet np=16 RAM64GB<br>



amdfr1.am1.mnet np=16 RAM64GB<br>pegasus.am1.mnet np=32 RAM128GB<br><br></div><div>Our maui.cfg file is:<br><br># maui.cfg 3.3.1<br><br>SERVERHOST            titan1.am1.mnet<br># primary admin must be first in list<br>ADMIN1                root kevin<br>



ADMIN3              ALL<br><br># Resource Manager Definition<br><br>RMCFG[TITAN1.AM1.MNET] TYPE=PBS<br><br># Allocation Manager Definition<br><br>AMCFG[bank]  TYPE=NONE<br><br># full parameter docs at <a href="http://supercluster.org/mauidocs/a.fparameters.html" target="_blank">http://supercluster.org/mauidocs/a.fparameters.html</a><br>



# use the &#39;schedctl -l&#39; command to display current configuration<br><br>RMPOLLINTERVAL        00:00:30<br><br>SERVERPORT            42559<br>SERVERMODE            NORMAL<br><br># Admin: <a href="http://supercluster.org/mauidocs/a.esecurity.html" target="_blank">http://supercluster.org/mauidocs/a.esecurity.html</a><br>



<br><br>LOGFILE               maui.log<br>LOGFILEMAXSIZE        10000000<br>LOGLEVEL              3<br><br># Job Priority: <a href="http://supercluster.org/mauidocs/5.1jobprioritization.html" target="_blank">http://supercluster.org/mauidocs/5.1jobprioritization.html</a><br>



<br>QUEUETIMEWEIGHT       1 <br><br># FairShare: <a href="http://supercluster.org/mauidocs/6.3fairshare.html" target="_blank">http://supercluster.org/mauidocs/6.3fairshare.html</a><br><br>#FSPOLICY              PSDEDICATED<br>


#FSDEPTH               7<br>
#FSINTERVAL            86400<br>#FSDECAY               0.80<br><br># Throttling Policies: <a href="http://supercluster.org/mauidocs/6.2throttlingpolicies.html" target="_blank">http://supercluster.org/mauidocs/6.2throttlingpolicies.html</a><br>



<br># NONE SPECIFIED<br><br># Backfill: <a href="http://supercluster.org/mauidocs/8.2backfill.html" target="_blank">http://supercluster.org/mauidocs/8.2backfill.html</a><br><br>BACKFILLPOLICY        FIRSTFIT<br>RESERVATIONPOLICY     CURRENTHIGHEST<br>



<br># Node Allocation: <a href="http://supercluster.org/mauidocs/5.2nodeallocation.html" target="_blank">http://supercluster.org/mauidocs/5.2nodeallocation.html</a><br><br>NODEALLOCATIONPOLICY  MINRESOURCE<br><br># Kevin&#39;s Modifications:<br>



<br>JOBNODEMATCHPOLICY EXACTNODE<br><br><br># QOS: <a href="http://supercluster.org/mauidocs/7.3qos.html" target="_blank">http://supercluster.org/mauidocs/7.3qos.html</a><br><br># QOSCFG[hi]  PRIORITY=100 XFTARGET=100 FLAGS=PREEMPTOR:IGNMAXJOB<br>



# QOSCFG[low] PRIORITY=-1000 FLAGS=PREEMPTEE<br><br># Standing Reservations: <a href="http://supercluster.org/mauidocs/7.1.3standingreservations.html" target="_blank">http://supercluster.org/mauidocs/7.1.3standingreservations.html</a><br>



<br># SRSTARTTIME[test] 8:00:00<br># SRENDTIME[test]   17:00:00<br># SRDAYS[test]      MON TUE WED THU FRI<br># SRTASKCOUNT[test] 20<br># SRMAXTIME[test]   0:30:00<br><br># Creds: <a href="http://supercluster.org/mauidocs/6.1fairnessoverview.html" target="_blank">http://supercluster.org/mauidocs/6.1fairnessoverview.html</a><br>



<br># USERCFG[DEFAULT]      FSTARGET=25.0<br># USERCFG[john]         PRIORITY=100  FSTARGET=10.0-<br># GROUPCFG[staff]       PRIORITY=1000 QLIST=hi:low QDEF=hi<br># CLASSCFG[batch]       FLAGS=PREEMPTEE<br># CLASSCFG[interactive] FLAGS=PREEMPTOR<br>



<br></div><div>Our MOM config file is:<br><br></div><div><div><div><div><div><div><div><div><div><div><div><div>$pbsserver    10.0.0.10    # IP address of titan1.am1.mnet<br>$clienthost    10.0.0.10    # IP address of management node<br>



$usecp        *:/home/kevin /home/kevin<br>$usecp        *:/home /home<br>$usecp        *:/root /root<br>$usecp        *:/home/mpi /home/mpi<br>$tmpdir        /home/mpi/tmp<br><br></div><div>I am finding it difficult to identify the configuration issue. I thought this thread would help:<br>



<br><a href="http://comments.gmane.org/gmane.comp.clustering.maui.user/2859" target="_blank">http://comments.gmane.org/gmane.comp.clustering.maui.user/2859</a><br><br></div><div>but their examples show the machine file is working correctly and they are battling memory allocations. I can&#39;t seem to get that far yet. Any thoughts?<span><font color="#888888"><br>



<br>-- <br>Kevin Sutherland<br></font></span></div><span><font color="#888888"><div>Simulations Specialist<br>
</div></font></span></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
<br></div></div>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><span><font color="#888888"><br><br clear="all"><br>-- <br>Ken Nielson<br><a href="tel:%2B1%20801.717.3700" value="+18017173700" target="_blank">+1 801.717.3700</a> office <a href="tel:%2B1%20801.717.3738" value="+18017173738" target="_blank">+1 801.717.3738</a> fax<br>

1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br>
<br>
</font></span></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Kevin Sutherland
</div>