<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7655.1">
<TITLE>RE: [torqueusers] Torque environment problem</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>I just wanted to add that if I launch a job on one node, everything works fine.&nbsp; For example in my job script if I specify<BR>
<BR>
<BR>
#PBS -l nodes=1:ppn=12<BR>
<BR>
Then everything runs fine.<BR>
<BR>
<BR>
However, if I specify two nodes, then everything fails.&nbsp;<BR>
<BR>
<BR>
#PBS -l nodes=1:ppn=12<BR>
<BR>
This also fails<BR>
<BR>
<BR>
#PBS -l nodes=13<BR>
<BR>
But this does not:<BR>
<BR>
<BR>
#PBS -l nodes=12<BR>
<BR>
Thanks,<BR>
<BR>
Randall<BR>
<BR>
-----Original Message-----<BR>
From: torqueusers-bounces@supercluster.org on behalf of Svancara, Randall<BR>
Sent: Fri 3/18/2011 7:48 PM<BR>
To: torqueusers@supercluster.org<BR>
Subject: [torqueusers] Torque environment problem<BR>
<BR>
<BR>
Hi,<BR>
<BR>
We are in the process of setting up a new cluster.&nbsp;&nbsp; One issue I am experiencing is with openmpi jobs launched through torque.&nbsp;<BR>
<BR>
When I launch a simple job using a very basic mpi &quot;Hello World&quot; script I am seeing the following errors from openmpi:<BR>
<BR>
**************************<BR>
<BR>
[node164:06689] plm:tm: failed to poll for a spawned daemon, return status = 17002<BR>
--------------------------------------------------------------------------<BR>
A daemon (pid unknown) died unexpectedly on signal 1&nbsp; while attempting to<BR>
launch so we are aborting.<BR>
<BR>
There may be more information reported by the environment (see above).<BR>
<BR>
This may be because the daemon was unable to find all the needed shared<BR>
libraries on the remote node. You may set your LD_LIBRARY_PATH to have the<BR>
location of the shared libraries on the remote nodes and this will<BR>
automatically be forwarded to the remote nodes.<BR>
--------------------------------------------------------------------------<BR>
--------------------------------------------------------------------------<BR>
mpirun noticed that the job aborted, but has no info as to the process<BR>
that caused that situation.<BR>
--------------------------------------------------------------------------<BR>
--------------------------------------------------------------------------<BR>
mpirun was unable to cleanly terminate the daemons on the nodes shown<BR>
below. Additional manual cleanup may be required - please refer to<BR>
the &quot;orte-clean&quot; tool for assistance.<BR>
--------------------------------------------------------------------------<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node163 - daemon did not report back when launched<BR>
Completed executing:<BR>
<BR>
*************************<BR>
<BR>
However when launch a job running mpiexec, everything seems to work fine using the following script:<BR>
<BR>
/usr/mpi/intel/openmpi-1.4.3/bin/mpirun -hostfile /home/admins/rsvancara/hosts -n 24 /home/admins/rsvancara/TEST/mpitest<BR>
<BR>
The job runs on 24 nodes with 12 processes per node.&nbsp;<BR>
<BR>
I have verified that my .bashrc is working.&nbsp; I have tried to launch from an interactive job using qsub -I -lnodes=12:ppn12 without any success.&nbsp; I am assuming this is an environment problem, however, I am unsure as the openmpi error includes &quot;MAY&quot;.&nbsp;&nbsp;<BR>
<BR>
My question is:<BR>
<BR>
1.&nbsp; Has anyone had this problem before (I am sure they have)<BR>
2.&nbsp; How would I go about troubleshooting this problem.&nbsp;<BR>
<BR>
<BR>
I am using torque version 2.4.7.<BR>
<BR>
Thanks for any assistance anyone can provide.<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>