Peter,<div><br></div><div>I am under the impression that the different sites running 4.x (either on test or production systems) haven&#39;t had to recompile their version of MPI. It&#39;d be nice to hear input from different admins on this subject, but my impression is that this isn&#39;t necessary, and I know that we didn&#39;t change the tm interface. I will respond to some of your other questions below.<br>

<br><div class="gmail_quote">On Fri, Jun 29, 2012 at 9:09 AM, Peter A Ruprecht <span dir="ltr">&lt;<a href="mailto:peter.ruprecht@colorado.edu" target="_blank">peter.ruprecht@colorado.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Hi everyone,<br>
<br>
Currently we&#39;re using torque 2.5.11 and would like to migrate to 4.x<br>
pretty soon.  However, some testing with 4.0.2 has shown that programs<br>
linked against a version of OpenMPI (1.4.x) that was compiled with torque<br>
2.5 won&#39;t run across more than one node.  My guess is that the task<br>
manager API has changed between 2.5 and 4.0.<br>
<br>
Certainly, best practices would suggest recompiling all libraries that<br>
depend on torque when the torque version changes.  However, a significant<br>
number of our users would be very unhappy having to re-test and possibly<br>
recompile their codes with a recompiled OpenMPI.  I think that in some<br>
cases they are even required to use identical libraries across a whole<br>
suite of runs to guarantee consistency.  This makes it a little tough to<br>
ever change the resource manager.<br>
<br>
So, getting around to my questions, is it likely that I am understanding<br>
the dependency between torque, the task manager, and OpenMPI correctly?<br></blockquote><div><br></div><div>My two cents: it seems extremely unlikely that if you recompile your MPI version it would change the results of the job, especially if you recompile the same version of MPI. In the event that you have to recompile, it seems like overkill to make everyone re-test their applications. However, I&#39;m by no means an expert in being an admin for HPC systems (I am a TORQUE developer) so hopefully some more in the community can weigh in.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">And if so, is it really going to be necessary to recompile OpenMPI?  What<br>

do you all do in this situation?  Is it a bad idea to run torque (on a big<br>
cluster, ~1400 nodes and &gt;10000 jobs/day) without using the task manager?<br>
<br></blockquote><div><br></div><div>There are a lot of sites that use (at least occasionally) versions of MPI that don&#39;t interface with TORQUE, or haven&#39;t been built to interface with TORQUE. The most common complaint I&#39;ve heard from this is that sometimes they have stray processes left from jobs that don&#39;t get cleaned up up by the mom because the mom isn&#39;t told when they are launched. Others may have more input here.</div>

<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Any commentary or pointers to relevant documentation appreciated!<br>
<br>
Pete Ruprecht<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>
</div>