<div>Hi everyone,</div>
<div>&nbsp;</div>
<div>I am in the process of replacing PBSPro on our cluster with Torque/Maui. I have installed the latest versions of Torque and Maui, and Torque appears to run fine on its own and runs jobs. The installations seem to have gone well according to the directions and tests.&nbsp;I have not been able to get maui to schedule jobs though (after stopping pbs_sched and starting maui as user jtest), they just remain in the queue in a deferred state. </div>

<div>&nbsp;</div>
<div>our basic setup is a login/submit node where pbs_server and maui run called beowulf (<a href="http://beowulf.cheme.cmu.edu">beowulf.cheme.cmu.edu</a> is the full name), with the execute nodes on an internal network.</div>

<div>&nbsp;<br>Typical output of checkjob on a deferred job&nbsp;is:<br>&nbsp;<br>job is deferred.&nbsp; Reason:&nbsp; RMFailure&nbsp; (job cannot be started - cannot set hostlist)<br>Holds:&nbsp;&nbsp;&nbsp; Defer&nbsp; (hold reason:&nbsp; RMFailure)<br>PE:&nbsp; 1.00&nbsp; StartPriority:&nbsp; 2<br>
cannot select job 52 for partition DEFAULT (job hold active)</div>
<div>&nbsp;</div>
<div>the torque log indicates an error connecting to MOM:<br>12/21/2008 18:04:32;0008;PBS_Server;Job;52.beowulf;Job Modified at request of <a href="mailto:jtest@beowulf">jtest@beowulf</a><br>12/21/2008 18:04:32;0001;PBS_Server;Req;;Server could not connect to MOM<br>
12/21/2008 18:04:32;0080;PBS_Server;Req;req_reject;Reject reply code=15070(Server could not connect to MOM), aux=0, type=ModifyJob, from <a href="mailto:jtest@beowulf">jtest@beowulf</a><br>12/21/2008 18:05:16;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.4.0b1, loglevel = 0</div>

<div>&nbsp;<br>maui is running as the user jtest, and jtest is a manager and operator in torque and as admin1 in maui<br>&nbsp;<br>some output from qmgr -c &#39;p s&#39;<br>&nbsp;<br>set server scheduling = True<br>set server acl_hosts = beowulf<br>
set server managers = <a href="mailto:jtest@beowulf">jtest@beowulf</a><br>set server operators = <a href="mailto:jtest@beowulf">jtest@beowulf</a><br>set server default_queue = q_feed<br>set server log_events = 255<br>set server mail_from = ChemE-beowulf-PBS<br>
set server query_other_jobs = True<br>set server scheduler_iteration = 600<br>set server node_check_rate = 150<br>set server tcp_timeout = 6<br>set server comment = ChemE Beowulf Cluster<br>set server next_job_number = 53</div>

<div>&nbsp;</div>
<div>&nbsp;</div>
<div>top of maui.cfg<br># maui.cfg 3.2.6p20<br>SERVERHOST&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; beowulf<br># primary admin must be first in list<br>ADMIN1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; jtest<br># Resource Manager Definition<br>RMCFG[BEOWULF] TYPE=PBS</div>
<div>&nbsp;</div>
<div>&nbsp;</div>
<div>on the nodes, the mom config files contain<br>matsim (jtest) ~ &gt; ssh c1n10 &#39;cat /var/spool/torque/mom_priv/config&#39;<br>$clienthost beowulf<br>$restricted *.<a href="http://cheme.cmu.edu">cheme.cmu.edu</a><br>
&nbsp;<br>Does anything stand out as wrong here? I have tried several variations of settings of parameters above with no luck at getting maui to work. any suggestions? thanks,<br>&nbsp;<br>j</div>
<div><br clear="all">-----------------------------------<br>John Kitchin<br>Assistant Professor<br>NETL-IAES Resident Institute Fellow<br>Doherty Hall A207F<br>Department of Chemical Engineering<br>Carnegie Mellon University<br>
Pittsburgh, PA 15213<br>412-268-7803<br><a href="http://kitchingroup.cheme.cmu.edu">http://kitchingroup.cheme.cmu.edu</a><br><br><br></div>