Hi Gus<div><br></div><div>Thanks for the info, but this doesn&#39;t seem to be related to why $PBS_NODEFILE only ever contains the entries for one node. I can ssh as myself and root passwordless between the headnode and compute nodes, using short hostnames, so I don&#39;t think there is a problem there.</div>
<div><br></div><div>Kind regards</div><div>Gordon<br clear="all"><br>-- max(∫(εὐδαιμονία)dt)<br><br>Dr Gordon Wells<br>Bioinformatics and Computational Biology Unit<br>Department of Biochemistry<br>University of Pretoria<br>

<br><br><div class="gmail_quote">On 11 October 2010 19:10, Gus Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="im">Gordon Wells wrote:<br>
&gt; Hi<br>
&gt;<br>
&gt; The varies /etc/hosts, nodes, server_name and config files and seem to<br>
&gt; be consistent. The nodes are indeed connected to the internet, could<br>
&gt; that be problematic?<br>
<br>
</div>Hi Gordon<br>
<br>
Yes, if the nodes are behind firewalls, or have some IP table setting<br>
restricting the connections.<br>
A firewall may prevent torque and MPI from working.<br>
Moreover, using the Internet addresses,<br>
the network traffic may hurt performance (MPI, I/O, etc).<br>
<br>
Here I (and most people) use a private subnet for this, say 192.168.1.0,<br>
or 10.1.1.0 either one with netmask 255.255.255.0, for this.<br>
Sometimes two private subnets, one for cluster control and I/O,<br>
another for MPI.<br>
Typical server motherboards come with two onboard Ethernet ports,<br>
but you can also plug in Gigabit Ethernet NICs on available motherboard<br>
slots.<br>
You could buy a cat5e cables and new switch for this, or if your switch<br>
has VLAN capability and enough idle ports,<br>
you can create a virtual subnet on it.<br>
<br>
On each node you have to configure these new interfaces properly,<br>
either through DHCP or statically (quite easy, put the IP<br>
addresses and the netmask on<br>
/etc/sysconfig/network-scripts/ifcfg-eth1, assuming eth1<br>
is the private subnet interface ... oh well, this is for<br>
RHEL/CentOS/Fedora, it may somewhat<br>
different in Debian/Ubuntu or SLES).<br>
<br>
Then insert names for these interfaces and associated IPs on the<br>
/etc/hosts files (same on all nodes).<br>
For instance:<br>
<br>
192.168.1.1 node01<br>
...<br>
<br>
The same names should be also used in the ${TORQUE}/server_priv/nodes file.<br>
<br>
In any case, either using the Internet or a private subnet,<br>
you need to make sure the users can<br>
ssh passwordless across all pairs of nodes.<br>
Can you do this on all node pairs on your cluster?<br>
<br>
This can be done, for instance, by creating a ssh-rsa key pair,<br>
and putting a bunch of copies of the public key on<br>
/etc/ssh/ssh_known_hosts2 on all nodes,<br>
something like this:<br>
<br>
192.168.1.1,node01 ssh-rsa [the same ssh-rsa public key copy goes here]<br>
192.168.1.2,node02 ssh-rsa [the same ssh-rsa public key copy goes here]<br>
...<br>
<br>
However, you *don&#39;t want to do this with public IP addresses*,<br>
only with private ones.<br>
(Yet another issue with using the Internet for Torque and MPI.)<br>
<div class="im"><br>
I hope this helps,<br>
Gus Correa<br>
<br>
<br>
<br>
&gt;<br>
</div><div class="im">&gt; As for 5), won&#39;t that require $PBS_NODEFILE to be correctly generated?<br>
&gt;<br>
&gt; Regards<br>
&gt; Gordon<br>
&gt;<br>
&gt; -- max(∫(εὐδαιμονία)dt)<br>
&gt;<br>
&gt; Dr Gordon Wells<br>
&gt; Bioinformatics and Computational Biology Unit<br>
&gt; Department of Biochemistry<br>
&gt; University of Pretoria<br>
&gt;<br>
&gt;<br>
&gt; On 8 October 2010 01:09, Gus Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a><br>
</div><div><div></div><div class="h5">&gt; &lt;mailto:<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;     Hi Gordon<br>
&gt;<br>
&gt;     Some guesses:<br>
&gt;<br>
&gt;     1) Do you have mom daemons running on the nodes?<br>
&gt;     I.e. on the nodes, what is the output of &quot;service pbs status&quot; or<br>
&gt;     &quot;service pbs_mom status&quot;?<br>
&gt;<br>
&gt;     2) Do your mom daemons on the nodes point to the server?<br>
&gt;     I.e. what is the content of $TORQUE/mom_priv/config?<br>
&gt;     Is it consistent with the server name in $TORQUE/server_name ?<br>
&gt;<br>
&gt;     3) What is the content of your /etc/hosts file on the head node<br>
&gt;     and on each node?<br>
&gt;     Are they the same?<br>
&gt;     Are they consistent with your nodes file,<br>
&gt;     i.e. head_node:$TORQUE/server_priv/nodes (i.e. same host names<br>
&gt;     that have IP addresses listed in /etc/hosts)?<br>
&gt;<br>
&gt;     4) Are you really using the Internet to connect the nodes,<br>
&gt;     as the fqdn names on your nodes file (sent in an old email) suggest?<br>
&gt;     (I can&#39;t find it, maybe you can post it again.)<br>
&gt;     Or are you using a private subnet?<br>
&gt;<br>
&gt;     5) Did you try to run hostname via mpirun on all nodes?<br>
&gt;     I.e., something like this:<br>
&gt;<br>
&gt;     ...<br>
&gt;     #PBS -l nodes=8:ppn=2<br>
&gt;     ...<br>
&gt;     mpirun -np 16 hostname<br>
&gt;<br>
&gt;<br>
&gt;     I hope this helps,<br>
&gt;     Gus Correa<br>
&gt;<br>
&gt;     Gordon Wells wrote:<br>
&gt;      &gt; I&#39;ve tried that, unfortunately I never get a $PBS_NODEFILE that spans<br>
&gt;      &gt; more than one node.<br>
&gt;      &gt;<br>
&gt;      &gt; -- max(∫(εὐδαιμονία)dt)<br>
&gt;      &gt;<br>
&gt;      &gt; Dr Gordon Wells<br>
&gt;      &gt; Bioinformatics and Computational Biology Unit<br>
&gt;      &gt; Department of Biochemistry<br>
&gt;      &gt; University of Pretoria<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt; On 7 October 2010 10:02, Vaibhav Pol &lt;<a href="mailto:vaibhavp@cdac.in">vaibhavp@cdac.in</a><br>
&gt;     &lt;mailto:<a href="mailto:vaibhavp@cdac.in">vaibhavp@cdac.in</a>&gt;<br>
</div></div><div><div></div><div class="h5">&gt;      &gt; &lt;mailto:<a href="mailto:vaibhavp@cdac.in">vaibhavp@cdac.in</a> &lt;mailto:<a href="mailto:vaibhavp@cdac.in">vaibhavp@cdac.in</a>&gt;&gt;&gt; wrote:<br>
&gt;      &gt;<br>
&gt;      &gt;      Hi ,<br>
&gt;      &gt;      you must set server as well as queue attribute.<br>
&gt;      &gt;<br>
&gt;      &gt;             set server resources_available.nodect = (number of<br>
&gt;      nodes *<br>
&gt;      &gt;     cpus per node)<br>
&gt;      &gt;             set &lt;queue name&gt; resources_available.nodect = (number of<br>
&gt;      &gt;      nodes * cpus per node)<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;      Thanks and regards,<br>
&gt;      &gt;      Vaibhav Pol<br>
&gt;      &gt;      National PARAM Supercomputing Facility<br>
&gt;      &gt;      Centre for Development of Advanced Computing<br>
&gt;      &gt;      Ganeshkhind Road<br>
&gt;      &gt;      Pune University Campus<br>
&gt;      &gt;      PUNE-Maharastra<br>
&gt;      &gt;      Phone +91-20-25704176 ext: 176<br>
&gt;      &gt;      Cell Phone :  +919850466409<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;     On Thu, 7 Oct 2010, Gordon Wells wrote:<br>
&gt;      &gt;<br>
&gt;      &gt;         Hi<br>
&gt;      &gt;<br>
&gt;      &gt;         I&#39;ve now tried torque 2.5.2 as well, same problems.<br>
&gt;      &gt;         Setting resources_available.nodect has no effect except<br>
&gt;     allowing<br>
&gt;      &gt;         me to use<br>
&gt;      &gt;         &quot;-l nodes=x&quot; with x &gt; 14<br>
&gt;      &gt;<br>
&gt;      &gt;         regards<br>
&gt;      &gt;<br>
&gt;      &gt;         -- max(∫(εὐδαιμονία)dt)<br>
&gt;      &gt;<br>
&gt;      &gt;         Dr Gordon Wells<br>
&gt;      &gt;         Bioinformatics and Computational Biology Unit<br>
&gt;      &gt;         Department of Biochemistry<br>
&gt;      &gt;         University of Pretoria<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;         On 6 October 2010 20:04, Glen Beane &lt;<a href="mailto:glen.beane@gmail.com">glen.beane@gmail.com</a><br>
&gt;     &lt;mailto:<a href="mailto:glen.beane@gmail.com">glen.beane@gmail.com</a>&gt;<br>
&gt;      &gt;         &lt;mailto:<a href="mailto:glen.beane@gmail.com">glen.beane@gmail.com</a><br>
&gt;     &lt;mailto:<a href="mailto:glen.beane@gmail.com">glen.beane@gmail.com</a>&gt;&gt;&gt; wrote:<br>
&gt;      &gt;<br>
&gt;      &gt;             On Wed, Oct 6, 2010 at 1:12 PM, Gordon Wells<br>
&gt;      &gt;             &lt;<a href="mailto:gordon.wells@gmail.com">gordon.wells@gmail.com</a><br>
</div></div>&gt;     &lt;mailto:<a href="mailto:gordon.wells@gmail.com">gordon.wells@gmail.com</a>&gt; &lt;mailto:<a href="mailto:gordon.wells@gmail.com">gordon.wells@gmail.com</a><br>
<div class="im">&gt;     &lt;mailto:<a href="mailto:gordon.wells@gmail.com">gordon.wells@gmail.com</a>&gt;&gt;&gt;<br>
&gt;      &gt;             wrote:<br>
&gt;      &gt;<br>
&gt;      &gt;                 Can I confirm that this will definitely fix the<br>
&gt;     problem?<br>
&gt;      &gt;                 Unfortunately<br>
&gt;      &gt;<br>
&gt;      &gt;             this<br>
&gt;      &gt;<br>
&gt;      &gt;                 cluster also needs to be glite compatible, 2.3.6<br>
&gt;     seems<br>
&gt;      &gt;                 to be the latest<br>
&gt;      &gt;<br>
&gt;      &gt;             that<br>
&gt;      &gt;<br>
&gt;      &gt;                 will work<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;             i&#39;m not certain...  do you happen to have set server<br>
&gt;      &gt;             resources_available.nodect set?  I have seen bugs with<br>
&gt;      &gt;             PBS_NODEFILE<br>
&gt;      &gt;             contents when this server attribute is set.  This may<br>
&gt;     be a<br>
&gt;      &gt;             manifestation of this bug, and I&#39;m not sure if it has<br>
&gt;     been<br>
&gt;      &gt;             corrected.<br>
&gt;      &gt;<br>
&gt;      &gt;             try unsetting this and submitting a job with -l<br>
&gt;     nodes=X:ppn=Y<br>
&gt;      &gt;             _______________________________________________<br>
&gt;      &gt;             torqueusers mailing list<br>
&gt;      &gt;             <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
</div>&gt;      &gt;             &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<div class="im">&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;&gt;<br>
&gt;      &gt;             <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;         --<br>
&gt;      &gt;         This message has been scanned for viruses and<br>
&gt;      &gt;         dangerous content by MailScanner, and is<br>
&gt;      &gt;         believed to be clean.<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;     --<br>
&gt;      &gt;     This message has been scanned for viruses and<br>
&gt;      &gt;     dangerous content by MailScanner, and is<br>
&gt;      &gt;     believed to be clean.<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;     _______________________________________________<br>
&gt;      &gt;     torqueusers mailing list<br>
&gt;      &gt;     <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
</div>&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<div><div></div><div class="h5">&gt;     &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;&gt;<br>
&gt;      &gt;     <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;      &gt;<br>
&gt;     ------------------------------------------------------------------------<br>
&gt;      &gt;<br>
&gt;      &gt; _______________________________________________<br>
&gt;      &gt; torqueusers mailing list<br>
&gt;      &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt;      &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;     _______________________________________________<br>
&gt;     torqueusers mailing list<br>
&gt;     <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
&gt;     <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; ------------------------------------------------------------------------<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br></div>