<div dir="ltr">Lev,<div><br></div><div>The mom sends in its hostname that is returned to it through the system call gethostname. </div><div><br></div><div>A simple workaround for this issue is to add the -A switch when pbs_mom is started:</div>
<div><br></div><div>pbs_mom -A &lt;node name in nodes file&gt;</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Mar 19, 2014 at 3:15 PM, Lev Givon <span dir="ltr">&lt;<a href="mailto:lev@columbia.edu" target="_blank">lev@columbia.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I&#39;m trying to configure a system running Ubuntu 13.10 (x86_64) and torque<br>
4.5.0pre1 (manually compiled and installed) to serve both as a torque server and<br>
a compute node. This machine has both a public and internal network interface;<br>
the latter is connected to a private network (<a href="http://192.168.0.0/8" target="_blank">192.168.0.0/8</a>) that communicates<br>
with other Ubuntu 13.10 systems (which each have a single interface attached to<br>
the private network) that will eventually be added to the torque configuration<br>
as compute nodes. I&#39;ve configured the system to set the hostname associated with<br>
its internal interface (node01.local) using avahi (zeroconf); I&#39;ve verified that<br>
I can use this hostname to access the system on the internal network. I used<br>
this hostname in the pbs_server and pbs_mom configurations (i.e.,<br>
/var/spool/torque/torque.cfg, /var/spool/torque/mom_priv/config,<br>
/var/spool/torque/server_priv/nodes, and<br>
/var/spool/torque/server_priv/serverdb); when I start all of the torque daemons<br>
(pbs_server, pbs_sched, pbs_mom, and trqauthd), however, it seems that<br>
pbs_server tries to use the name associated with the external interface (master)<br>
despite what is specified in the config files (excerpt from the server logs):<br>
<br>
03/19/2014 14:50:31;0006;PBS_Server.1913;Svr;PBS_Server;Using ports Server:15001<br>
Scheduler:15004  MOM:15002 (server: &#39;<a href="http://master.ee.columbia.edu" target="_blank">master.ee.columbia.edu</a>&#39;)<br>
..<br>
03/19/2014 14:51:01;0001;PBS_Server.1920;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node<br>
node01.local is reporting on node master, which pbs_server doesn&#39;t know about<br>
<br>
Any ideas as to why the name associated with the external interface is being<br>
used even though it is not specified anywhere in the torque configuration?<br>
Resolving the node01.local name via gethostbyname() returns the address of the<br>
internal interface because nsswitch.conf is configured to look at mdns when<br>
resolving names.<br>
<span class="HOEnZb"><font color="#888888">--<br>
Lev Givon<br>
Bionet Group<br>
<a href="http://www.columbia.edu/~lev/" target="_blank">http://www.columbia.edu/~lev/</a><br>
<a href="http://lebedov.github.io/" target="_blank">http://lebedov.github.io/</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>