Hi,<br><br>Sometimes, the mom daemon ( 2.3.1-snap.200804241117) dies without any notice (from what I can see in the log file). In the server log, I can see:<br><br clear="all">06/06/2008 10:24:09;0004;PBS_Server;Svr;svr_connect;attempting connect to server 2472458686 port 15002<br>
06/06/2008 10:24:09;0001;PBS_Server;Svr;PBS_Server;Operation now in progress (115) in send_job, send_job commit failed, rc=15031 (End of File)<br>06/06/2008 10:24:09;0001;PBS_Server;Svr;PBS_Server;Operation now in progress (115) in send_job, child commit request timed-out for job <a href="http://9849.epstein.up.univ-mrs.fr">9849.epstein.up.univ-mrs.fr</a>, increase tcp_timeout?<br>
06/06/2008 10:24:09;0004;PBS_Server;Svr;svr_connect;attempting connect to server 2472458686 port 15002<br>06/06/2008 10:24:09;0004;PBS_Server;Svr;svr_connect;cannot connect to server port 15002 - cannot establish connection (cannot bind to port 1023 in client_to_svr - connection refused) - time=0 seconds<br>
06/06/2008 10:24:09;0004;PBS_Server;Svr;WARNING;ALERT: unable to contact node epstein<br>06/06/2008 10:24:09;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:root@epstein.up.univ-mrs.fr">root@epstein.up.univ-mrs.fr</a>, sock=10<br>
06/06/2008 10:24:09;0008;PBS_Server;Job;<a href="http://9849.epstein.up.univ-mrs.fr">9849.epstein.up.univ-mrs.fr</a>;Job Modified at request of <a href="mailto:root@epstein.up.univ-mrs.fr">root@epstein.up.univ-mrs.fr</a><br>
06/06/2008 10:24:09;0004;PBS_Server;Svr;svr_connect;attempting connect to server 2472458686 port 15002<br>06/06/2008 10:24:09;0004;PBS_Server;Svr;svr_connect;cannot connect to server port 15002 - cannot establish connection (cannot bind to port 1023 in client_to_svr - connection refused) - time=0 seconds<br>
06/06/2008 10:24:09;0001;PBS_Server;Req;;Server could not connect to MOM<br><br>What shall I do to diagnose the problem ?<br><br>Another thing: when the mom daemon is dead, jobs already running continue to run. However, if I restart the mom daemon, they are killed immediately, and placed in queue as if they never run before. How can I insure that running jobs continue to run when the mom daemon is restarted ?<br>
<br>Nicolas Ferré,<br>CRCMM (Marseille, France)<br>