<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
Garrick Staples wrote:
<blockquote cite="mid20060330005235.GI21271@polop.usc.edu" type="cite">
  <pre wrap="">On Wed, Mar 29, 2006 at 07:50:56PM +0300, Hristo Iliev alleged:
  </pre>
  <blockquote type="cite">
    <pre wrap="">On Wed, 2006-03-29 at 11:05 -0500, Tom Combs wrote:
    </pre>
    <blockquote type="cite">
      <pre wrap="">Hi,  I just upgraded to torque-2.0.0.p8 and now jobs do not terminate nor
can they be qdel'd.  In the mom_logs on the nodes, I have the following:

 pbs_mom;Req;jobobit;No contact with server at hostaddr c000000a, port 15000

I have hostbased authentication working for all users between the master 
node and
compute nodes - in both directions but that doesn't appear to be the 
issue. Jobs go
into execution and seem to run just fine, it's just the pbs job never 
terminates.

Does anyone know what my problem could be?

TIA,  Tom Combs

      </pre>
    </blockquote>
    <pre wrap="">Hi.

Recently we experienced the same problem after moving to 2.0.0p8 and the
reason turned out to be poorly set up /etc/hosts file. On each node the
node's hostname first appeared on the line where localhost (127.0.0.1)
was. Strange enough but this setup worked quite well with Torque
1.2.0p6.
    </pre>
  </blockquote>
  <pre wrap=""><!---->
Interesting problem.  That would cause pbs_server to advertise itself as
localhost.

pbs_server tells pbs_mom "Hi, here's a job from localhost, let me know
when it is done."
pbs_mom dutifully runs the job, sending status updates to all of its
configured servers.
When the jobs exits, pbs_mom attempts to send the jobobit to localhost.

  </pre>
</blockquote>
<br>
&nbsp; My hosts file looks to be correct so this is not the issue. Here is a
sample:<br>
# Do not remove the following line, or various programs<br>
# that require network functionality will fail.<br>
<br>
127.0.0.1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; localhost<br>
192.0.0.10&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cmt node-0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; # server_name is cmt - this comment is
not part of hosts file....<br>
192.0.0.11&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node-1<br>
192.0.0.12&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node-2<br>
192.0.0.13&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node-3<br>
<br>
Here is a momctl from one of the nodes:<br>
[root@node-55 sbin]# ./momctl -d 3<br>
<br>
Host: node-55/node-55&nbsp;&nbsp; Version: 2.0.0p8<br>
Server[0]: cmt (connection is active)<br>
&nbsp; WARNING:&nbsp; no hello/cluster-addrs messages received from server<br>
&nbsp; Init Msgs Sent:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7053 hellos<br>
&nbsp; Last Msg From Server:&nbsp;&nbsp; 69831 seconds (StatusJob)<br>
&nbsp; Last Msg To Server:&nbsp;&nbsp;&nbsp;&nbsp; 7 seconds<br>
PID:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4228<br>
HomeDirectory:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /opt/torque/mom_priv<br>
MOM active:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 70632 seconds<br>
Server Update Interval: 45 seconds<br>
LOGLEVEL:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 (use SIGUSR1/SIGUSR2 to adjust)<br>
Communication Model:&nbsp;&nbsp;&nbsp; RPP<br>
TCP Timeout:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 20 seconds<br>
NOTE:&nbsp; no prolog configured<br>
Alarm Time:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 of 10 seconds<br>
Trusted Client List:&nbsp;&nbsp;&nbsp; 192.0.0.10,192.0.0.65,127.0.0.1<br>
Job[57.cmt]&nbsp; State=EXITING<br>
Assigned CPU Count:&nbsp;&nbsp;&nbsp;&nbsp; 1<br>
<br>
diagnostics complete<br>
<br>
<br>
&nbsp;Thanks for the help, you people are great.&nbsp;&nbsp;&nbsp;&nbsp; --Tom Combs<br>
<br>
<br>
<br>
<br>
<br>
<pre class="moz-signature" cols="75">-- 
Tom Combs                                  E-mail: <a class="moz-txt-link-abbreviated" href="mailto:combs@magnet.fsu.edu">combs@magnet.fsu.edu</a>
National High Magnetic Field Laboratory    Phone: (850) 644-1657
1800 E. Paul Dirac Drive                   Tallahassee, FL 32310
</pre>
</body>
</html>