<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    Hi,<br>
    <div class="moz-forward-container"> <br>
      I have installed a mini test cluster with torque and maui. We have
      used maui/torque for years on our grid cluster and now we are
      upgrading to torque 2.5.7 and maui 3.3-4. Unfortunately with this
      new combination maui doesn't seem to work correctly. When I submit
      jobs and it behaves as if there weren't any free resources. Even
      when I tried to install only torque and maui with a bare minimum
      configuration I got the same behaviour, i.e.<br>
      <br>
      1) When I submit the jobs just remain queued<br>
      <br>
      <small><i><small><i>[root@</i></small><small><i>&lt;server&gt;
              maui]# </i></small>qstat -an1</i><i><br>
        </i><i><br>
        </i><i>&lt;server&gt;: </i><i><br>
        </i><i>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

          Req'd&nbsp; Req'd&nbsp;&nbsp; Elap</i><i><br>
        </i><i>Job ID&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Username Queue&nbsp;&nbsp;&nbsp; Jobname&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
          SessID NDS&nbsp;&nbsp; TSK Memory Time&nbsp; S Time</i><i><br>
        </i><i>-------------------- -------- -------- ----------------
          ------ ----- --- ------ ----- - -----</i><i><br>
        </i><i>10.&lt;server&gt; &nbsp;&nbsp;&nbsp; aforti&nbsp;&nbsp; long&nbsp;&nbsp;&nbsp;&nbsp;
          pbs-vm3.sh&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; --&nbsp; Q&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp; -- </i><i><br>
        </i><i>11.s&lt;server&gt;&nbsp;&nbsp;&nbsp; aforti&nbsp;&nbsp; long&nbsp;&nbsp;&nbsp;&nbsp;
          pbs-vm3.sh&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp; --&nbsp; Q&nbsp;&nbsp; --&nbsp;&nbsp;&nbsp;&nbsp; -- </i></small><br>
      <br>
      2) If I run qrun &lt;jobid&gt; the job runs so I assume the
      problem is not between torque server and torque mom.<br>
      3) When I use showq on the old versions displayed the WCLimit of
      the default queue now it displays 0 at first and then it changes
      it by itself to 100 days<br>
      <br>
      &nbsp; <small><i>showq<br>
          ACTIVE JOBS--------------------<br>
          JOBNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; USERNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STATE&nbsp; PROC&nbsp;&nbsp;
          REMAINING&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STARTTIME<br>
          <br>
          <br>
          &nbsp;&nbsp;&nbsp;&nbsp; 0 Active Jobs&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 of&nbsp;&nbsp; 16 Processors Active (0.00%)<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 of&nbsp;&nbsp;&nbsp; 1 Nodes Active&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (0.00%)<br>
          <br>
          IDLE JOBS----------------------<br>
          JOBNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; USERNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STATE&nbsp; PROC&nbsp;&nbsp;&nbsp;&nbsp;
          WCLIMIT&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; QUEUETIME<br>
          <br>
          2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; aforti&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Idle&nbsp;&nbsp;&nbsp;&nbsp; 1 99:23:59:59&nbsp; Wed
          Oct 10 13:36:34<br>
          3&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; aforti&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Idle&nbsp;&nbsp;&nbsp;&nbsp; 1 99:23:59:59&nbsp; Wed
          Oct 10 14:01:43<br>
          4&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; aforti&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Idle&nbsp;&nbsp;&nbsp;&nbsp; 1 99:23:59:59&nbsp; Wed
          Oct 10 18:50:14<br>
          5&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; aforti&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Idle&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 00:00:00&nbsp; Wed
          Oct 10 20:29:27<br>
          <br>
          4 Idle Jobs<br>
          <br>
          BLOCKED JOBS----------------<br>
          JOBNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; USERNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STATE&nbsp; PROC&nbsp;&nbsp;&nbsp;&nbsp;
          WCLIMIT&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; QUEUETIME<br>
          <br>
          <br>
          Total Jobs: 4&nbsp;&nbsp; Active Jobs: 0&nbsp;&nbsp; Idle Jobs: 4&nbsp;&nbsp; Blocked Jobs:
          0<br>
        </i></small><small><i><br>
        </i><i><br>
        </i><i>Total Jobs: 2&nbsp;&nbsp; Active Jobs: 0&nbsp;&nbsp; Idle Jobs: 2&nbsp;&nbsp; Blocked
          Jobs: 0</i><i><br>
        </i></small><br>
      4) Checkjob &lt;jobid&gt; just tells me the job cannot be run in
      the default partition without any particular reason<br>
      <br>
      <small><i>[.....]<br>
          PE:&nbsp; 1.00&nbsp; StartPriority:&nbsp; 120</i><i><br>
        </i><i>cannot select job 10 for partition DEFAULT (Class)</i></small><br>
      <br>
      5) Checknode can see the node free if it wasn't clear from other
      commands<br>
      <br>
      <small><i>[root@</i></small><small><i>&lt;server&gt; maui]#
          !checkno</i><i><br>
        </i><i>checknode &lt;node&gt;</i><i><br>
        </i><i><br>
        </i><i>checking node &lt;node&gt;</i><i><br>
        </i><i><br>
        </i><i>State:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Idle&nbsp; (in current state for 00:55:10)</i><i><br>
        </i><i>Configured Resources: PROCS: 16&nbsp; MEM: 23G&nbsp; SWAP: 31G&nbsp;
          DISK: 1M</i><i><br>
        </i><i>Utilized&nbsp;&nbsp; Resources: SWAP: 202M</i><i><br>
        </i><i>Dedicated&nbsp; Resources: [NONE]</i><i><br>
        </i><i>Opsys:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; linux&nbsp; Arch:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [NONE]</i><i><br>
        </i><i>Speed:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00&nbsp; Load:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.000</i><i><br>
        </i><i>Network:&nbsp;&nbsp;&nbsp; [DEFAULT]</i><i><br>
        </i><i>Features:&nbsp;&nbsp; [lcgpro]</i><i><br>
        </i><i>Attributes: [Batch]</i><i><br>
        </i><i>Classes:&nbsp;&nbsp;&nbsp; [DEFAULT 1:1]</i><i><br>
        </i><i><br>
        </i><i>Total Time: 3:06:35&nbsp; Up: 3:06:24 (99.90%)&nbsp; Active:
          00:00:10 (0.09%)</i><i><br>
        </i><i><br>
        </i><i>Reservations:</i><i><br>
        </i><i>NOTE:&nbsp; no reservations on node</i></small><br>
      <br>
      6) When I use showbf -v though it says my nodes are blocked by
      reservations despite checknode clearly telling me there are no
      reservations on that node. In our local maui.cfg there is a
      reservation for 1 proc I'm not sure why it blocks the whole node <br>
      <br>
      <small><i>[root@</i></small><small><i>&lt;server2&gt;
          server_logs]# showbf -v</i><i><br>
        </i><i>backfill window (user: 'root' group: 'root' partition:
          ALL) Tue Oct&nbsp; 9 17:08:59</i><i><br>
        </i><i><br>
        </i><i>&nbsp; 3 procs available with no timelimit</i><i><br>
        </i><i><br>
        </i><i>node &lt;node2&gt; is blocked by reservation sft.0.0 in&nbsp;&nbsp;
          INFINITY</i><i><br>
        </i><big><br>
          But to be sure I removed it and even when I remove the
          reservation and reduce the maui.cfg to the default version
          without anything in it it tells me the node is blocked by
          "reservation NONE in INFINITY"<br>
          <br>
          <small><i>[root@</i></small></big></small><small><big><small><i>&lt;server&gt;

              maui]# showbf -v</i><i><br>
            </i><i>backfill window (user: 'root' group: 'root'
              partition: ALL) Tue Oct&nbsp; 9 17:37:58</i><i><br>
            </i><i><br>
            </i><i>&nbsp;16 procs available with no timelimit</i><i><br>
            </i><i><br>
            </i><i>node &lt;node&gt; is blocked by reservation NONE in&nbsp;&nbsp;
              INFINITY</i><i><br>
            </i><big></big></small></big></small><br>
      <small><big><small><big>If I increase the maui loglevel to 9 I
              hundreds of these messages<br>
              <br>
              <small><i>10/10 13:37:39 MRMCheckEvents()</i><i><br>
                </i><i>10/10 13:37:39 INFO:&nbsp;&nbsp;&nbsp;&nbsp; no PBS sched socket
                  connections ready</i><i><br>
                </i><i>10/10 13:37:39
                  MSUAcceptClient(6,ClientSD,HostName,TCP)</i><i><br>
                </i><i>10/10 13:37:39 INFO:&nbsp;&nbsp;&nbsp;&nbsp; accept call failed,
                  errno: 11 (Resource temporarily unavailable)</i><i><br>
                </i><i>10/10 13:37:39 INFO:&nbsp;&nbsp;&nbsp;&nbsp; all clients connected.&nbsp;
                  servicing requests</i><i><br>
                </i></small> <br>
              which leaves me perplexed since in other places with a
              different log level it sees the jobs waiting on the server
              so somehow some comunication happens and other doesn't<br>
              <br>
              <small><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '2' Priority:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
                  410</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; Cred:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp;
                  FS:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Attr:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Serv:&nbsp;&nbsp;&nbsp;
                  410(00.0)&nbsp; Targ:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Res:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp;
                  Us:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '2'&nbsp; priority:&nbsp;&nbsp;
                  410.30</i><i><br>
                </i><i>10/10 20:27:24
                  MJobGetStartPriority(3,0,Priority,NULL)</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '3' Priority:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
                  385</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; Cred:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp;
                  FS:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Attr:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Serv:&nbsp;&nbsp;&nbsp;
                  385(00.0)&nbsp; Targ:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Res:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp;
                  Us:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '3'&nbsp; priority:&nbsp;&nbsp;
                  385.30</i><i><br>
                </i><i>10/10 20:27:24
                  MJobGetStartPriority(4,0,Priority,NULL)</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '4' Priority:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
                  97</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; Cred:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp;
                  FS:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Attr:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Serv:&nbsp;&nbsp;&nbsp;&nbsp;
                  97(00.0)&nbsp; Targ:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Res:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp;
                  Us:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)</i><i><br>
                </i><i>10/10 20:27:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '4'&nbsp; priority:&nbsp;&nbsp;&nbsp;
                  97.17</i><i><br>
                </i></small><br>
              Thanks for any help here are the rpms I used<br>
              <br>
              <small><i>maui-3.3-4.el5</i><i><br>
                </i><i>maui-client-3.3-4.el5</i><i><br>
                </i><i>maui-server-3.3-4.el5</i><i><br>
                </i><i>torque-2.5.7-7.el5</i><i><br>
                </i><i>torque-client-2.5.7-7.el5</i><i><br>
                </i><i>torque-server-2.5.7-7.el5</i></small></big></small></big><i><br>
        </i><i><small><big><small><big>libtorque-2.5.7-7.el5</big></small></big></small></i></small><big><small><i><br>
          </i></small><br>
        the maui.cfg<br>
        <br>
        <i><small><small># <br>
              # MAUI configuration example<br>
              # @(#)maui.cfg David Groep 20031015.1<br>
              # for MAUI version 3.2.5<br>
              # <br>
              SERVERHOST&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &lt;server&gt;</small></small></i></big><br>
      <big><i><small><small>ADMIN1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; root <br>
              ADMINHOST&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &lt;server&gt;</small></small></i></big><br>
      <big><i><small><small>RMTYPE[0]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS<br>
              RMHOST[0]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &lt;server&gt;</small></small></i></big><br>
      <big><i><small><small>RMSERVER[0]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &lt;server&gt;</small></small></i></big><br>
      <big><i><small><small><br>
              SERVERPORT&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40559<br>
              SERVERMODE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; NORMAL<br>
              <br>
              # Set PBS server polling interval. Since we have many
              short jobs<br>
              # and want fast turn-around, set this to 10 seconds
              (default: 2 minutes)<br>
              RMPOLLINTERVAL&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 00:00:10<br>
              <br>
              # a max. 10 MByte log file in a logical location<br>
              LOGFILE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /var/log/maui.log<br>
              LOGFILEMAXSIZE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10000000<br>
              LOGLEVEL&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3</small></small></i><br>
        <br>
      </big>and Torque config<br>
      <br>
      <small><i>create queue long</i><i><br>
        </i><i>set queue long queue_type = Execution</i><i><br>
        </i><i>set queue long acl_hosts = localhost</i><i><br>
        </i><i>set queue long acl_hosts += &lt;server&gt;</i><i><br>
        </i><i>set queue long resources_max.cput = 48:00:00</i><i><br>
        </i><i>set queue long resources_max.walltime = 72:00:00</i><i><br>
        </i><i>set queue long acl_group_enable = True</i><i><br>
        </i><i>set queue long acl_groups = aforti</i><i><br>
        </i><i>set queue long enabled = True</i><i><br>
        </i><i>set queue long started = True</i><i><br>
        </i><i>#</i><i><br>
        </i><i># Set server attributes.</i><i><br>
        </i><i>#</i><i><br>
        </i><i>set server scheduling = True</i><i><br>
        </i><i>set server acl_host_enable = False</i><i><br>
        </i><i>set server acl_hosts = &lt;server&gt;</i><i><br>
        </i><i>set server acl_hosts += localhost</i><i><br>
        </i><i>set server default_queue = long</i><i><br>
        </i><i>set server log_events = 511</i><i><br>
        </i><i>set server mail_from = adm</i><i><br>
        </i><i>set server next_job_number = 12</i></small><br>
      <pre class="moz-signature" cols="72">-- 
Facts aren't facts if they come from the wrong people. (Paul Krugman)
</pre>
      <br>
      <br>
    </div>
    <br>
  </body>
</html>