<div class="gmail_quote">
<div>I uninstalled the branch version and installed torque 2.3.5 and then everything was fine.&nbsp; qrun worked just fine with the branch version.</div>
<div>&nbsp;</div>
<div>thanks for the tips on mom_priv/config</div>
<div>&nbsp;</div>
<div>j</div>
<div>&nbsp;</div>
<blockquote style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" class="gmail_quote"><span></span>&nbsp; 2. Re: torque/maui integration - cannot set hostlist error<br>&nbsp; &nbsp; &nbsp;(Garrick Staples)<br>Message: 2<br>
Date: Mon, 22 Dec 2008 21:05:07 -0800<br>From: Garrick Staples &lt;<a href="mailto:garrick@usc.edu">garrick@usc.edu</a>&gt;<br>Subject: Re: [Mauiusers] torque/maui integration - cannot set hostlist<br>&nbsp; &nbsp; &nbsp; &nbsp;error<br>To: <a href="mailto:mauiusers@supercluster.org">mauiusers@supercluster.org</a><br>
Message-ID: &lt;<a href="mailto:20081223050507.GT3820@polop.usc.edu">20081223050507.GT3820@polop.usc.edu</a>&gt;<br>Content-Type: text/plain; charset=&quot;us-ascii&quot;<br><br>On Sun, Dec 21, 2008 at 08:32:08PM -0500, John Kitchin alleged:<br>
&gt; Hi everyone,<br>&gt;<br>&gt; I am in the process of replacing PBSPro on our cluster with Torque/Maui. I<br>&gt; have installed the latest versions of Torque and Maui, and Torque appears to<br>&gt; run fine on its own and runs jobs. The installations seem to have gone well<br>
&gt; according to the directions and tests. I have not been able to get maui to<br>&gt; schedule jobs though (after stopping pbs_sched and starting maui as user<br>&gt; jtest), they just remain in the queue in a deferred state.<br>
&gt;<br>&gt; our basic setup is a login/submit node where pbs_server and maui run called<br>&gt; beowulf (<a target="_blank" href="http://beowulf.cheme.cmu.edu/">beowulf.cheme.cmu.edu</a> is the full name), with the execute nodes on<br>
&gt; an internal network.<br>&gt;<br>&gt; Typical output of checkjob on a deferred job is:<br>&gt;<br>&gt; job is deferred. &nbsp;Reason: &nbsp;RMFailure &nbsp;(job cannot be started - cannot set<br>&gt; hostlist)<br>&gt; Holds: &nbsp; &nbsp;Defer &nbsp;(hold reason: &nbsp;RMFailure)<br>
&gt; PE: &nbsp;1.00 &nbsp;StartPriority: &nbsp;2<br>&gt; cannot select job 52 for partition DEFAULT (job hold active)<br>&gt;<br>&gt; the torque log indicates an error connecting to MOM:<br>&gt; 12/21/2008 18:04:32;0008;PBS_Server;Job;52.beowulf;Job Modified at request<br>
&gt; of jtest@beowulf<br>&gt; 12/21/2008 18:04:32;0001;PBS_Server;Req;;Server could not connect to MOM<br>&gt; 12/21/2008 18:04:32;0080;PBS_Server;Req;req_reject;Reject reply<br>&gt; code=15070(Server could not connect to MOM), aux=0, type=ModifyJob, from<br>
&gt; jtest@beowulf<br>&gt; 12/21/2008 18:05:16;0002;PBS_Server;Svr;PBS_Server;Torque Server Version =<br>&gt; 2.4.0b1, loglevel = 0<br><br>This means that something is wrong between pbs_server and pbs_mom. &nbsp;I don&#39;t<br>
think this has anything to do with maui.<br><br>Test with &#39;qrun&#39;. &nbsp;That is a torque command that will attempt to start the job. &nbsp;If that also fails, then you really know it isn&#39;t maui.<br><br>Also, you are running trunk. &nbsp;You should really start with the latest 2.1.x or<br>
2.3.6 (releasing soon).<br><br><br>&gt; on the nodes, the mom config files contain<br>&gt; matsim (jtest) ~ &gt; ssh c1n10 &#39;cat /var/spool/torque/mom_priv/config&#39;<br>&gt; $clienthost beowulf<br>&gt; $restricted *.<a target="_blank" href="http://cheme.cmu.edu/">cheme.cmu.edu</a><br>
<br>$clienthost is ancient. &nbsp;You want to use $pbsserver.<br><br>And why use $restricted? &nbsp;That disables security.<br><br>--<br>Garrick Staples, GNU/Linux HPCC SysAdmin<br>University of Southern California<br><br>See the Dishonor Roll at <a target="_blank" href="http://www.californiansagainsthate.com/">http://www.californiansagainsthate.com/</a><br>
<br></blockquote></div>