Hi all.<br><br>We&#39;ve been using Torque+Maui in our cluster for some time now. It&#39;s a small cluster, composed by 8 (now only 6 online) quad-core nodes plus a master machine.<br><br>The way the queue should be working is:<br>
1 - All users has a maximum of 8 processors/cores to use at the same time, in <b>any</b> moment;<br>2 - Any (sub-)group of users (there are three) should not be able to use more than 16 processors/cores at the same time, in <b>any</b> moment.<br>
<br>I&#39;m quite sure I&#39;ve tested the following configuration to be certain about this usage protocols. Unfortunatelly, due to some unexplained reasons so far, the cluster is just becoming to be heavy used now, more than a month after it was officially started. And now a really strange behaviour was noticed, which seems to be related to the way I configured maui:<br>
<br>1 - there are 6 jobs using 24 cores from users of the same group at the same time running. I guess that if there were more nodes available, the two queued processes from that same group would also start to run.<br><br>
2 - There is one user with three jobs alone, using 12 cores. :(<br><br>How can I correct this? Due to &quot;internal policies&quot;, there is no problem in having a spare node available with no proceses (we intend to deal with it by implementing some sort of &quot;wake on lan&quot; procedure), but by no means a group or a user can go over this stablished limits. :(<br>
<br>Here follows my maui.cfg. Just removed the server name for safety reasons:<br><br>*******************<br># maui.cfg 3.2.6p20<br><br>SERVERHOST            server<br># primary admin must be first in list<br>ADMIN1                root<br>
<br># Resource Manager Definition<br><br>RMCFG[server] TYPE=PBS<br><br># Allocation Manager Definition<br><br>AMCFG[bank]  TYPE=NONE<br><br>RMPOLLINTERVAL        00:00:30<br><br>SERVERPORT            42559<br>SERVERMODE            NORMAL<br>
<br># Admin: <a href="http://supercluster.org/mauidocs/a.esecurity.html">http://supercluster.org/mauidocs/a.esecurity.html</a><br><br>LOGFILE               maui.log<br>LOGFILEMAXSIZE        10000000<br>LOGLEVEL              3<br>
<br># Job Priority: <a href="http://supercluster.org/mauidocs/5.1jobprioritization.html">http://supercluster.org/mauidocs/5.1jobprioritization.html</a><br><br>QUEUETIMEWEIGHT       1<br><br># FairShare: <a href="http://supercluster.org/mauidocs/6.3fairshare.html">http://supercluster.org/mauidocs/6.3fairshare.html</a><br>
<br>#FSPOLICY              PSDEDICATED<br>#FSDEPTH               7<br>#FSINTERVAL            86400<br>#FSDECAY               0.80<br><br># Throttling Policies: <a href="http://supercluster.org/mauidocs/6.2throttlingpolicies.html">http://supercluster.org/mauidocs/6.2throttlingpolicies.html</a><br>
<br>CLASSCFG[cluster]  MAXPROC[GROUP]=16 MAXPROC[USER]=8<br>CLASSCFG[qm]       MAXPROC[USER]=8<br><br># Backfill: <a href="http://supercluster.org/mauidocs/8.2backfill.html">http://supercluster.org/mauidocs/8.2backfill.html</a><br>
<br>BACKFILLPOLICY        FIRSTFIT #NONE<br>RESERVATIONPOLICY     CURRENTHIGHEST<br><br># Node Allocation: <a href="http://supercluster.org/mauidocs/5.2nodeallocation.html">http://supercluster.org/mauidocs/5.2nodeallocation.html</a><br>
<br>NODEALLOCATIONPOLICY  MINRESOURCE #CPULOAD ou FIRSTAVAILABLE ???!!!<br><br># QOS: <a href="http://supercluster.org/mauidocs/7.3qos.html">http://supercluster.org/mauidocs/7.3qos.html</a><br><br># QOSCFG[hi]  PRIORITY=100 XFTARGET=100 FLAGS=PREEMPTOR:IGNMAXJOB<br>
# QOSCFG[low] PRIORITY=-1000 FLAGS=PREEMPTEE<br><br># Standing Reservations: <a href="http://supercluster.org/mauidocs/7.1.3standingreservations.html">http://supercluster.org/mauidocs/7.1.3standingreservations.html</a><br>
<br># SRSTARTTIME[test] 8:00:00<br># SRENDTIME[test]   17:00:00<br># SRDAYS[test]      MON TUE WED THU FRI<br># SRTASKCOUNT[test] 20<br># SRMAXTIME[test]   0:30:00<br><br># Creds: <a href="http://supercluster.org/mauidocs/6.1fairnessoverview.html">http://supercluster.org/mauidocs/6.1fairnessoverview.html</a><br>
<br># USERCFG[DEFAULT]      FSTARGET=25.0<br># USERCFG[john]         PRIORITY=100  FSTARGET=10.0-<br># GROUPCFG[staff]       PRIORITY=1000 QLIST=hi:low QDEF=hi<br># CLASSCFG[batch]       FLAGS=PREEMPTEE<br># CLASSCFG[interactive] FLAGS=PREEMPTOR<br>
********************<br><br>Here is the &quot;showq&quot; output:<br><br>***********************<br>ACTIVE JOBS--------------------<br>JOBNAME            USERNAME      STATE  PROC   REMAINING            STARTTIME<br><br>311                  gullit    Running     4 94:05:48:49  Fri Sep  4 21:27:41<br>
313                 msegala    Running     4 96:08:39:28  Mon Sep  7 00:18:20<br>314                 msegala    Running     4 96:20:13:42  Mon Sep  7 11:52:34<br>318                ricksander    Running     4 98:19:45:23  Wed Sep  9 11:24:15<br>
320                 msegala    Running     4 98:23:29:31  Wed Sep  9 15:08:23<br>321                 william    Running     4 99:08:03:39  Wed Sep  9 23:42:31<br><br>     6 Active Jobs      24 of   24 Processors Active (100.00%)<br>
                         6 of    6 Nodes Active      (100.00%)<br><br>IDLE JOBS----------------------<br>JOBNAME            USERNAME      STATE  PROC     WCLIMIT            QUEUETIME<br><br>322                  gullit       Idle     4 99:23:59:59  Thu Sep 10 08:51:42<br>
323                  gullit       Idle     4 99:23:59:59  Thu Sep 10 11:08:50<br><br>2 Idle Jobs<br><br>BLOCKED JOBS----------------<br>JOBNAME            USERNAME      STATE  PROC     WCLIMIT            QUEUETIME<br><br>
<br>Total Jobs: 8   Active Jobs: 6   Idle Jobs: 2   Blocked Jobs: 0<br>***********************<br><br>And here the &quot;qstat -q&quot; output:<br><br>***********************<br>Queue            Memory CPU Time Walltime Node  Run Que Lm  State<br>
---------------- ------ -------- -------- ----  --- --- --  -----<br>qm                 --      --       --      --    0   0 --   E R<br>cluster            --      --       --      --    6   2 --   E R<br>                                               ----- -----<br>
                                                   6     2<br>***********************<br><br>Any clues here? By the way, is there any way to reinforce any corrections I make immediately, what would mean to automatically place the last started processes above in a &quot;waiting&quot; state?<br>
<br>Thanks a lot in advance for any help with this matter!<br><br>Sincerally yours,<br><br>Jones<br>