<br><div class="gmail_quote">On Fri, Feb 26, 2010 at 11:43 AM, chris <a href="http://job.fr">job.fr</a> <span dir="ltr">&lt;<a href="http://chrisjob.fr">chrisjob.fr</a>@<a href="http://gmail.com">gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi,<br>
<br>
We use : Torque/PBS 2.1.6, - maui-3.2.6p21, mpich-1.2.7p1 on a cluster.<br>
<br>
  We use the mpirun command to submit job and we have sometimes the<br>
following problem :<br>
  When  the walltime is reached all the processes are not killed on<br>
the nodes. Someone has told me to write an epilog, but I don&#39;t know<br>
how to do it.<br></blockquote><div><br><br>you don&#39;t need an epilog to solve this problem.   use OSC&#39;s mpiexec job launcher to replace mpirun from (<a href="http://www.osc.edu/~djohnson/mpiexec/index.php">http://www.osc.edu/~djohnson/mpiexec/index.php</a>). Since this replacement job launcher uses TORQUE&#39;s TM API instead of ssh to launch the remote jobs TORQUE is aware of all processes that belong to the job and will properly clean them up after a job hits its walltime.<br>
<br> </div></div>