Hi<div><br></div><div>The varies /etc/hosts, nodes, server_name and config files and seem to be consistent. The nodes are indeed connected to the internet, could that be problematic?</div><div><br></div><div>As for 5), won&#39;t that require $PBS_NODEFILE to be correctly generated?</div>
<div><br></div><div>Regards</div><div>Gordon<br clear="all"><br>-- max(∫(εὐδαιμονία)dt)<br><br>Dr Gordon Wells<br>Bioinformatics and Computational Biology Unit<br>Department of Biochemistry<br>University of Pretoria<br>
<br><br><div class="gmail_quote">On 8 October 2010 01:09, Gus Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Hi Gordon<br>
<br>
Some guesses:<br>
<br>
1) Do you have mom daemons running on the nodes?<br>
I.e. on the nodes, what is the output of &quot;service pbs status&quot; or<br>
&quot;service pbs_mom status&quot;?<br>
<br>
2) Do your mom daemons on the nodes point to the server?<br>
I.e. what is the content of $TORQUE/mom_priv/config?<br>
Is it consistent with the server name in $TORQUE/server_name ?<br>
<br>
3) What is the content of your /etc/hosts file on the head node<br>
and on each node?<br>
Are they the same?<br>
Are they consistent with your nodes file,<br>
i.e. head_node:$TORQUE/server_priv/nodes (i.e. same host names<br>
that have IP addresses listed in /etc/hosts)?<br>
<br>
4) Are you really using the Internet to connect the nodes,<br>
as the fqdn names on your nodes file (sent in an old email) suggest?<br>
(I can&#39;t find it, maybe you can post it again.)<br>
Or are you using a private subnet?<br>
<br>
5) Did you try to run hostname via mpirun on all nodes?<br>
I.e., something like this:<br>
<br>
...<br>
#PBS -l nodes=8:ppn=2<br>
...<br>
mpirun -np 16 hostname<br>
<br>
<br>
I hope this helps,<br>
Gus Correa<br>
<div class="im"><br>
Gordon Wells wrote:<br>
&gt; I&#39;ve tried that, unfortunately I never get a $PBS_NODEFILE that spans<br>
&gt; more than one node.<br>
&gt;<br>
&gt; -- max(∫(εὐδαιμονία)dt)<br>
&gt;<br>
&gt; Dr Gordon Wells<br>
&gt; Bioinformatics and Computational Biology Unit<br>
&gt; Department of Biochemistry<br>
&gt; University of Pretoria<br>
&gt;<br>
&gt;<br>
&gt; On 7 October 2010 10:02, Vaibhav Pol &lt;<a href="mailto:vaibhavp@cdac.in">vaibhavp@cdac.in</a><br>
</div><div><div></div><div class="h5">&gt; &lt;mailto:<a href="mailto:vaibhavp@cdac.in">vaibhavp@cdac.in</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;      Hi ,<br>
&gt;      you must set server as well as queue attribute.<br>
&gt;<br>
&gt;             set server resources_available.nodect = (number of  nodes *<br>
&gt;     cpus per node)<br>
&gt;             set &lt;queue name&gt; resources_available.nodect = (number of<br>
&gt;      nodes * cpus per node)<br>
&gt;<br>
&gt;<br>
&gt;      Thanks and regards,<br>
&gt;      Vaibhav Pol<br>
&gt;      National PARAM Supercomputing Facility<br>
&gt;      Centre for Development of Advanced Computing<br>
&gt;      Ganeshkhind Road<br>
&gt;      Pune University Campus<br>
&gt;      PUNE-Maharastra<br>
&gt;      Phone +91-20-25704176 ext: 176<br>
&gt;      Cell Phone :  +919850466409<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;     On Thu, 7 Oct 2010, Gordon Wells wrote:<br>
&gt;<br>
&gt;         Hi<br>
&gt;<br>
&gt;         I&#39;ve now tried torque 2.5.2 as well, same problems.<br>
&gt;         Setting resources_available.nodect has no effect except allowing<br>
&gt;         me to use<br>
&gt;         &quot;-l nodes=x&quot; with x &gt; 14<br>
&gt;<br>
&gt;         regards<br>
&gt;<br>
&gt;         -- max(∫(εὐδαιμονία)dt)<br>
&gt;<br>
&gt;         Dr Gordon Wells<br>
&gt;         Bioinformatics and Computational Biology Unit<br>
&gt;         Department of Biochemistry<br>
&gt;         University of Pretoria<br>
&gt;<br>
&gt;<br>
&gt;         On 6 October 2010 20:04, Glen Beane &lt;<a href="mailto:glen.beane@gmail.com">glen.beane@gmail.com</a><br>
</div></div><div class="im">&gt;         &lt;mailto:<a href="mailto:glen.beane@gmail.com">glen.beane@gmail.com</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;             On Wed, Oct 6, 2010 at 1:12 PM, Gordon Wells<br>
</div>&gt;             &lt;<a href="mailto:gordon.wells@gmail.com">gordon.wells@gmail.com</a> &lt;mailto:<a href="mailto:gordon.wells@gmail.com">gordon.wells@gmail.com</a>&gt;&gt;<br>
<div class="im">&gt;             wrote:<br>
&gt;<br>
&gt;                 Can I confirm that this will definitely fix the problem?<br>
&gt;                 Unfortunately<br>
&gt;<br>
&gt;             this<br>
&gt;<br>
&gt;                 cluster also needs to be glite compatible, 2.3.6 seems<br>
&gt;                 to be the latest<br>
&gt;<br>
&gt;             that<br>
&gt;<br>
&gt;                 will work<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;             i&#39;m not certain...  do you happen to have set server<br>
&gt;             resources_available.nodect set?  I have seen bugs with<br>
&gt;             PBS_NODEFILE<br>
&gt;             contents when this server attribute is set.  This may be a<br>
&gt;             manifestation of this bug, and I&#39;m not sure if it has been<br>
&gt;             corrected.<br>
&gt;<br>
&gt;             try unsetting this and submitting a job with -l nodes=X:ppn=Y<br>
&gt;             _______________________________________________<br>
&gt;             torqueusers mailing list<br>
&gt;             <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
</div>&gt;             &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
<div class="im">&gt;             <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;         --<br>
&gt;         This message has been scanned for viruses and<br>
&gt;         dangerous content by MailScanner, and is<br>
&gt;         believed to be clean.<br>
&gt;<br>
&gt;<br>
&gt;     --<br>
&gt;     This message has been scanned for viruses and<br>
&gt;     dangerous content by MailScanner, and is<br>
&gt;     believed to be clean.<br>
&gt;<br>
&gt;<br>
&gt;     _______________________________________________<br>
&gt;     torqueusers mailing list<br>
</div>&gt;     <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a> &lt;mailto:<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;<br>
<div class="im">&gt;     <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
</div>&gt; ------------------------------------------------------------------------<br>
<div><div></div><div class="h5">&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br></div>