Hi,<br>
<br>
I have an very clever aplication, who can dinamicaly distribute the
load across the nodes allocated to run a job. If one node dies in the
middle of the computation, the application can go on on the other
nodes, and other process can get the unfinished process of the dead
node to complete the process.<br>
<br>
This application is writen in Fortran and we are using MPICH. The
application dosen't have the need to comunicate, the processes dosen't
share data, so the processes are very independent.<br>
<br>
We use mpiexec to start the process in Torque, and i can remove the
&quot;-kill&quot; parameter and the processes in the nodes will keep going, but
the default behavior of PBS/Torque is kill the job when a node dies.
Can i change this behavior? If there's no way to do tha with some kind
of configuration, can someone point me in the code where i can work on
this?<br>
<br>
Thanks <br><br>-- <br>Leandro Tavares Carneiro<br>Analista de Suporte Linux/Unix