Thank you for the information. I will test it and any news i will reply to you.<br>
<br>
This patch is for the latest snapshot?<br><br>
Regards,<br>
<br>
-- <br>
Leandro Tavares Carneiro<br>
Analista de Suporte Linux/Unix
<br>
<br><div><span class="gmail_quote">2005/8/10, Garrick Staples &lt;<a href="mailto:garrick@usc.edu">garrick@usc.edu</a>&gt;:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
On Wed, Aug 10, 2005 at 06:13:32PM -0700, Garrick Staples alleged:<br>&gt; On Wed, Aug 10, 2005 at 08:23:24AM -0300, Leandro alleged:<br>&gt; &gt; behavior of PBS/Torque is kill the job when a node dies. Can i change this
<br>&gt; &gt; behavior? If there's no way to do tha with some kind of configuration, can<br>&gt; &gt; someone point me in the code where i can work on this?<br>&gt;<br>&gt; At this point in time, the MOM on the execution node (MS) will always kill the
<br>&gt; job if a sister MOM isn't replying.<br>&gt;<br>&gt; MS sends IM_POLL_JOB messages to sisters.&nbsp;&nbsp;When a sister isn't replying, MS<br>&gt; closes the connection with mom_comm.c:im_eof() which calls<br>&gt; mom_comm.c:node_bailout().&nbsp;&nbsp;With outstanding IM_POLL_JOB messages,
<br>&gt; node_bailout() sets &quot;pjob-&gt;ji_nodekill = np-&gt;hn_node;&quot; and<br>&gt; mom_main.c:job_over_limit() kills the job if &quot;pjob-&gt;ji_nodekill !=<br>&gt; TM_ERROR_NODE&quot;.<br><br>I haven't tried this yet, but this should do the trick:
<br><br>--- src/resmom/mom_comm.c_orig&nbsp;&nbsp; 2005-07-26 23:24:55.000000000 -0700<br>+++ src/resmom/mom_comm.c&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2005-08-10 19:25:45.000000000 -0700<br>@@ -1101,8 +1101,6 @@ void node_bailout(<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; log_err(-1,id,log_buffer);
<br><br>-&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pjob-&gt;ji_nodekill = np-&gt;hn_node;<br>-<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; break;<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; case IM_GET_TID:<br><br><br>--<br>Garrick Staples, Linux/HPCC Administrator<br>University of Southern California<br><br><br>_______________________________________________
<br>torqueusers mailing list<br><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br><a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers
</a><br><br><br><br></blockquote></div>