<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>Have you set LD_LIBRARY_PATH in your ~/.bashrc file? Did you try to include LD_LIBRARY_PATH to mpirun or mpiexec?</div><div><br></div><div>np=$(cat $PBS_NODEFILE | wc -l)</div><div><br></div><div>mpiexec -np $np -hostfile $PBS_NODEFILE env&nbsp;LD_LIBRARY_PATH=$LD_LIBRARY_PATH XXXX</div><div><br></div><div>Best,</div><div><br></div><div>Shenglong</div><div><br></div><div><br></div><div><br></div><br><div><div>On Mar 18, 2011, at 11:36 PM, Svancara, Randall wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">
<div>
<!-- Converted from text/plain format --><p><font size="2">I just wanted to add that if I launch a job on one node, everything works fine.&nbsp; For example in my job script if I specify<br>
<br>
<br>
#PBS -l nodes=1:ppn=12<br>
<br>
Then everything runs fine.<br>
<br>
<br>
However, if I specify two nodes, then everything fails.&nbsp;<br>
<br>
<br>
#PBS -l nodes=1:ppn=12<br>
<br>
This also fails<br>
<br>
<br>
#PBS -l nodes=13<br>
<br>
But this does not:<br>
<br>
<br>
#PBS -l nodes=12<br>
<br>
Thanks,<br>
<br>
Randall<br>
<br>
-----Original Message-----<br>
From: <a href="mailto:torqueusers-bounces@supercluster.org">torqueusers-bounces@supercluster.org</a> on behalf of Svancara, Randall<br>
Sent: Fri 3/18/2011 7:48 PM<br>
To: <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
Subject: [torqueusers] Torque environment problem<br>
<br>
<br>
Hi,<br>
<br>
We are in the process of setting up a new cluster.&nbsp;&nbsp; One issue I am experiencing is with openmpi jobs launched through torque.&nbsp;<br>
<br>
When I launch a simple job using a very basic mpi "Hello World" script I am seeing the following errors from openmpi:<br>
<br>
**************************<br>
<br>
[node164:06689] plm:tm: failed to poll for a spawned daemon, return status = 17002<br>
--------------------------------------------------------------------------<br>
A daemon (pid unknown) died unexpectedly on signal 1&nbsp; while attempting to<br>
launch so we are aborting.<br>
<br>
There may be more information reported by the environment (see above).<br>
<br>
This may be because the daemon was unable to find all the needed shared<br>
libraries on the remote node. You may set your LD_LIBRARY_PATH to have the<br>
location of the shared libraries on the remote nodes and this will<br>
automatically be forwarded to the remote nodes.<br>
--------------------------------------------------------------------------<br>
--------------------------------------------------------------------------<br>
mpirun noticed that the job aborted, but has no info as to the process<br>
that caused that situation.<br>
--------------------------------------------------------------------------<br>
--------------------------------------------------------------------------<br>
mpirun was unable to cleanly terminate the daemons on the nodes shown<br>
below. Additional manual cleanup may be required - please refer to<br>
the "orte-clean" tool for assistance.<br>
--------------------------------------------------------------------------<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node163 - daemon did not report back when launched<br>
Completed executing:<br>
<br>
*************************<br>
<br>
However when launch a job running mpiexec, everything seems to work fine using the following script:<br>
<br>
/usr/mpi/intel/openmpi-1.4.3/bin/mpirun -hostfile /home/admins/rsvancara/hosts -n 24 /home/admins/rsvancara/TEST/mpitest<br>
<br>
The job runs on 24 nodes with 12 processes per node.&nbsp;<br>
<br>
I have verified that my .bashrc is working.&nbsp; I have tried to launch from an interactive job using qsub -I -lnodes=12:ppn12 without any success.&nbsp; I am assuming this is an environment problem, however, I am unsure as the openmpi error includes "MAY".&nbsp;&nbsp;<br>
<br>
My question is:<br>
<br>
1.&nbsp; Has anyone had this problem before (I am sure they have)<br>
2.&nbsp; How would I go about troubleshooting this problem.&nbsp;<br>
<br>
<br>
I am using torque version 2.4.7.<br>
<br>
Thanks for any assistance anyone can provide.<br>
<br>
</font>
</p>

</div>
_______________________________________________<br>torqueusers mailing list<br><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>http://www.supercluster.org/mailman/listinfo/torqueusers<br></blockquote></div><br></body></html>