<br><br><div class="gmail_quote">On Wed, May 7, 2008 at 1:09 PM, Michael Robbert &lt;<a href="mailto:mrobbert@mines.edu">mrobbert@mines.edu</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
I would also like to figure out why these processes continue to run after this false exit or after a canceljob. The code is being run with mpirun and he is using mvapich. We do not have an mpiexec in our mvapich path. I know that mpirun works fine for OpenMPI, and OpenMPI has an mpiexec. They are currently seeing huge speed advantages with mvapich so until we work out any issues with OpenMPI and their code I can&#39;t tell them to use OpenMPI. </blockquote>
<div><br>if processes continue to run after a canceljob / qdel or hitting a walltime limit then the problem is almost certainly that you are using a non-tm&nbsp; job launcher.&nbsp; tm is the PBS/TORQUE task manager API. You want to use a job launcher than uses tm to spawn all of the processes rather than something else like rsh/ssh<br>
<br>OpenMPI has native tm support, you just have to make sure it can find the tm library when you run configure.&nbsp; For mvapich you can use mpiexec from Pete Wyckoff at OSC: <a href="http://www.osc.edu/~pw/mpiexec">http://www.osc.edu/~pw/mpiexec</a>.&nbsp; Hide your mvapich mpirun from your users and make them use Pete&#39;s mpiexec.&nbsp; A non-tm job launcher is nothing but trouble with PBS or TORQUE<br>
</div></div><br>