<br><font size=2 face="Arial">Tim,</font>
<br>
<br><font size=2 face="Arial">I have managed to mis-configure pbs to give
me these symptoms in two ways:</font>
<br>
<br><font size=2 face="Arial">1) pbs_server isn't running on the port that
the mom thinks it is. &nbsp;Make sure that the pbs_server is running on
15001 (looks like you're already looking at this). &nbsp;As mentioned not
long ago, you can start the mom with pbs_mom -S 15000 to force mom to look
for the server at port 15000. &nbsp;(though I suppose a wise thing to do
may be to see what port pbs_server is running on first). &nbsp;</font>
<br>
<br><font size=2 face="Arial">2) Fudged up ethernet names for the server
on the mom (personally, I've done this with multi-homed servers). &nbsp;Does
the mom-node (cree?) know who huron(server) is (and vice versa)? &nbsp;Is
that an entry in /etc/hosts on the mom-node? &nbsp;Being a wimp, I almost
always use the ip of the server in the config file for the pbsserver entry
to avoid making this mistake.</font>
<br>
<br><font size=2 face="Arial">I suppose the third option is that pbs_server
is actually running at all on huron. &nbsp;</font>
<br>
<br><font size=2 face="Arial">Hope that helps,</font>
<br><font size=2 face="Arial">Nate</font>
<br>
<br>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td width=40%><font size=1 face="sans-serif"><b>&quot;Carbo, Timothy J.&quot;
&lt;TIMOTHY.J.CARBO@saic.com&gt;</b> </font>
<br><font size=1 face="sans-serif">Sent by: torqueusers-bounces@supercluster.org</font>
<p><font size=1 face="sans-serif">10-Jul-2007 15:16</font>
<td width=59%><font size=1 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp;
</font>
<table width=100%>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">To</font></div>
<td><font size=1 face="sans-serif">&quot;Garrick Staples&quot; &lt;garrick@usc.edu&gt;,
torqueusers@supercluster.org</font>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">cc</font></div>
<td>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">Subject</font></div>
<td><font size=1 face="sans-serif">RE: [torqueusers] No contact with server
at hostaddr problem (followup)</font></table>
<br>
<table>
<tr valign=top>
<td>
<td></table>
<br></table>
<br>
<br>
<br><tt><font size=2>Garrick:<br>
<br>
Sorry I wasn't clear<br>
<br>
My set up is <br>
<br>
Node1 (cree): &nbsp;running pbs_server, pbs_mom and maui<br>
<br>
server_priv/nodes:<br>
cree np=8<br>
Huron np=8<br>
<br>
mom_priv/config:<br>
$pbsserver cree<br>
<br>
Node2 (huron): &nbsp;running pbs_mom only<br>
<br>
mom_priv/config:<br>
$pbsserver cree<br>
<br>
When I submit the following on cree<br>
<br>
echo &quot;sleep 30&quot; | qsub<br>
<br>
the job appears to be scheduled on huron and runs OK but then I start<br>
seeing the &quot;No contact with server at hostaddr port 15001&quot; error<br>
messages repeated in the mom_logs file on huron and it appears that the<br>
pbs_server never is notified that the job ran to completion.<br>
<br>
Hope this clears things up a little.<br>
<br>
Regards,<br>
Tim<br>
<br>
<br>
-----Original Message-----<br>
From: torqueusers-bounces@supercluster.org<br>
[mailto:torqueusers-bounces@supercluster.org] On Behalf Of Garrick<br>
Staples<br>
Sent: Tuesday, July 10, 2007 12:28 PM<br>
To: torqueusers@supercluster.org<br>
Subject: Re: [torqueusers] No contact with server at hostaddr problem<br>
(followup)<br>
<br>
On Mon, Jul 09, 2007 at 09:30:09AM -0600, Carbo, Timothy J. alleged:<br>
&gt; Hello all.<br>
&gt; <br>
&gt; &nbsp;<br>
&gt; <br>
&gt; I was tracking the following email chain and was wondering if there
is<br>
&gt; any resolution to the problem below. &nbsp;I just installed TORQUE
2.1.8<br>
with<br>
&gt; Maui 3.2.6-p19 on a two node system (both x86-64 bit Xeon quad core<br>
&gt; systems running Red Hat AS 4 update 4) and am having the same exact<br>
&gt; problem when I try to submit a job on my client node (jobs run fine
on<br>
&gt; the server node). &nbsp;Oddly, the remote node is trying to connect
to port<br>
&gt; 15001 on the server node but netstat -a indicates there is nothing<br>
&gt; listening at that port. &nbsp;I am pretty new to Torque so am I missing<br>
&gt; something?<br>
<br>
It is a little hard to figure out your setup here with &quot;client&quot;,<br>
&quot;server&quot;, and &quot;remote&quot; nodes.<br>
<br>
If both hosts are to handle compute jobs, then you want pbs_mom running<br>
on both hosts and both hostnames in server_priv/nodes.<br>
<br>
-- <br>
Garrick Staples, GNU/Linux HPCC SysAdmin<br>
University of Southern California<br>
<br>
Please avoid sending me Word or PowerPoint attachments.<br>
See http://www.gnu.org/philosophy/no-word-attachments.html<br>
_______________________________________________<br>
torqueusers mailing list<br>
torqueusers@supercluster.org<br>
http://www.supercluster.org/mailman/listinfo/torqueusers<br>
<br>
</font></tt>
<br>