<div dir="ltr"><br><div class="gmail_quote">Torque in our cluster are setup in HA mode (running pbs_server with --ha option)<br>
The failover takes over 3 minutes when the node where active pbs_server was running goes down.<br>
Please take a look at pbs_server log:<br>
19:20 is the time when another pbs_server is dying.<br>
19:23 is the time when pbs_server on this node becomes active (at the time when qstat can show something)<br>
<br>
<br>
09/07/2013 19:20:15;0002;PBS_Server.7333;<u></u>Svr;Log;Log opened<br>
09/07/2013 19:20:15;0006;PBS_Server.7333;<u></u>Svr;PBS_Server;Server master.localdomain started, initialization type = 1<br>
09/07/2013 19:20:15;0002;PBS_Server.7333;<u></u>Svr;get_default_threads;<u></u>Defaulting min_threads to 33 threads<br>
09/07/2013 19:20:15;0002;PBS_Server.7333;<u></u>Svr;Act;Account file /var/spool/torque/server_priv/<u></u>accounting/<a href="tel:20130907" value="+85220130907" target="_blank">20130907</a> opened<br>
09/07/2013 19:20:15;0040;PBS_Server.7333;<u></u>Req;setup_nodes;setup_nodes()<br>
09/07/2013 19:20:15;0086;PBS_Server.7333;<u></u>Svr;PBS_Server;Recovered queue prepost_q<br>
09/07/2013 19:20:15;0086;PBS_Server.7333;<u></u>Svr;PBS_Server;Recovered queue prepost_q_high<br>
09/07/2013 19:20:15;0086;PBS_Server.7333;<u></u>Svr;PBS_Server;Recovered queue model_q_high<br>
09/07/2013 19:20:15;0086;PBS_Server.7333;<u></u>Svr;PBS_Server;Recovered queue model_q<br>
09/07/2013 19:20:15;0086;PBS_Server.7333;<u></u>Svr;PBS_Server;Recovered queue batch<br>
09/07/2013 19:20:15;0002;PBS_Server.7333;<u></u>Svr;PBS_Server;Expected 5, recovered 5 queues<br>
09/07/2013 19:21:07;0080;PBS_Server.7333;<u></u>Svr;PBS_Server;1000 files read from disk<br>
09/07/2013 19:22:00;0080;PBS_Server.7333;<u></u>Svr;PBS_Server;2000 files read from disk<br>
09/07/2013 19:22:53;0080;PBS_Server.7333;<u></u>Svr;PBS_Server;3000 files read from disk<br>
09/07/2013 19:23:48;0080;PBS_Server.7333;<u></u>Svr;PBS_Server;4000 files read from disk<br>
09/07/2013 19:23:51;0080;PBS_Server.7333;<u></u>Svr;PBS_Server;4038 total files read from disk<br>
09/07/2013 19:23:51;0100;PBS_Server.7333;<u></u>Job;10448.master.localdomain;<u></u>enqueuing into model_q, state 6 hop 1<br>
09/07/2013 19:23:51;0086;PBS_Server.7333;<u></u>Job;10448.master.localdomain;<u></u>Requeueing job, substate: 59 Requeued in queue: model_q<br>
09/07/2013 19:23:51;0100;PBS_Server.7333;<u></u>Job;10881.master.localdomain;<u></u>enqueuing into prepost_q_high, state 2 hop 1<br>
<br>
We also found that when the length of job history grows, the time for failover takes much longer (grows exponentially)<br>
<br>
Apparently pbs_server read thousands of files before becoming active, where are the files? Is there any method to reduce failover time?<br>
<br>
Thanks very much.<br>
</div>
</div>