<div class="gmail_quote">On Mon, May 28, 2012 at 6:45 PM, Martin Siegert <span dir="ltr">&lt;<a href="mailto:siegert@sfu.ca" target="_blank">siegert@sfu.ca</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<br>
I am wondering whether there is a way of running an MPI program<br>
compiled with openmpi (configured with --with-tm=...) and torque-2.5.x<br>
using the TM interface under torque-4.0.x?<br>
<br>
The dependence on torque enters openmpi only through the<br>
mca_plm_tm.so module which links with libtorque.so.2:<br>
<br>
# ldd /usr/local/openmpi-1.4.3/lib64/openmpi/mca_plm_tm.so<br>
        linux-vdso.so.1 =&gt;  (0x00007fff63ffd000)<br>
        libtorque.so.2 =&gt; /usr/local/torque-2.5.8/lib/libtorque.so.2 (0x00002b0286c14000)<br>
        libnsl.so.1 =&gt; /lib64/libnsl.so.1 (0x00002b0286f2d000)<br>
        libutil.so.1 =&gt; /lib64/libutil.so.1 (0x00002b0287145000)<br>
        libm.so.6 =&gt; /lib64/libm.so.6 (0x00002b0287348000)<br>
        libpthread.so.0 =&gt; /lib64/libpthread.so.0 (0x00002b02875cc000)<br>
        libc.so.6 =&gt; /lib64/libc.so.6 (0x00002b02877e7000)<br>
        /lib64/ld-linux-x86-64.so.2 (0x0000003a3e200000)<br>
<br>
The program runs fine when I run it from the command line, i.e.,<br>
<br>
mpiexec -n 20 -hostfile mfile ./myprog<br>
<br>
and it also runs fine when torque 2.5.11 is running.<br>
However, with torque-4.0.2 and using a submission script<br>
<br>
#!/bin/bash<br>
#PBS -l walltime=1:30:00<br>
#PBS -l procs=20<br>
cd $PBS_O_WORKDIR<br>
mpiexec ./myprog<br>
<br>
the job fails to run (as long as the number of requested processors so large<br>
that more than one node is involved in the computation).<br>
This is the error message from mpiexec:<br>
        b413 - daemon did not report back when launched<br>
<br>
I would have expected that since both torque-2.5.x and torque-4.0.2<br>
come with libtorque.so.2 (i.e., same soname) that the library is<br>
&quot;backward compatible&quot;.<br>
<br>
The solution to this problem appears to be to just recompile the<br>
mca_plm_tm.so module and replace just that file. This appears to<br>
be working although I find this somewhat hair-raising. Has somebody<br>
more experience with this?<br>
<br>
Otherwise upgrading to torque-4.0.x would be almost impossible:<br>
we would have to recompile all MPI programs on the system including<br>
the users&#39; programs.<br>
Even when just replacing mca_plm_tm.so We still need to drain all<br>
jobs, upgrade torque and replace mca_plm_tm.so since I cannot imagine<br>
that a rolling upgrade can work: do moms from torque-2.5.11 talk to a<br>
torque-4.0.2 server?.<br>
<br>
Cheers,<br>
Martin<br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
Martin Siegert<br>
Simon Fraser University<br>
Burnaby, British Columbia</font></span><br></blockquote></div><br>Martin,<br><br>Thanks for the report. Hopefully this is something we can fix. I can&#39;t think of anything we did that would require a recompile for the apps that use libtorque.so but that doesn&#39;t mean we didn&#39;t.<br>
<br>Ken<br>