<div dir="ltr">Thx for Derek Gottlieb, who reports the same problem and has provided his solution.<br><br>&gt; We&#39;ve been running torque 4.1.x + Moab 7.2.x in HA mode for a few 
months.  At least for our distro (SLES), the included init scripts for 
both torque and Moab were clearly not written with HA in mind.  We had 
to make a bunch of modifications to the init scripts to make them 
actually usable for common scenarios (e.g., function to shut down both 
servers when needed, shut down only the local process, etc).  For 
example, default functions try to kill based on the pid file which 
doesn&#39;t make as much sense if run from the passive pbs_server machine 
using the server.lock file that holds the pid of the process on the 
other server.  Would be nice if they&#39;d release init scripts that were HA
 aware and provided functions to force a failover, shut down all 
servers, etc.<br>
&gt;<br>
&gt; You&#39;ll find the Moab init scripts have similar issues.  If you run 
/etc/init.d/moab stop from the passive, I think it issues a &#39;mschedctl 
-k&#39; that kills the active.<br>
&gt;<br>
&gt; If you&#39;d like, I could share what we&#39;ve slapped together so far. 
 It&#39;s very definitely still a work in progress and will need some 
customization for your environment, but let me know if you&#39;d be 
interested.<br>
&gt;<br>
&gt; If it helps, I found the following method to determine which machine is the current active:<br>
&gt;<br>
&gt; Torque pbs_server:<br>
&gt; qmgr -c &#39;list server&#39; 2&gt;/dev/null | grep &quot;^Server&quot;<br>
&gt;<br>
&gt; Moab:<br>
&gt; mdiag -S -v|grep &quot;running on&quot;<br><br><br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 22 April 2013 16:30, Clotho Tsang <span dir="ltr">&lt;<a href="mailto:wytsang@clustertech.com" target="_blank">wytsang@clustertech.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">We are setting up Torque 4.1.4 + Moab 7.2.1 in HA mode, job
    submission and dispatching is fine so far.<br><div class="gmail_quote"><div bgcolor="#FFFFFF" text="#000000">
    <br>
    However, we found that when stopping passive pbs_server with
    &quot;/etc/init.d/pbs_server stop&quot;,<br>
    it will stop the active pbs_server instead. Let me show how to make
    this:<br>
    <br>
    master1# ps -ef |grep pbs<br>
    root      67328      1  1 15:54 ?        00:00:16
    /usr/sbin/pbs_server -d /var/spool/torque --ha -l master1:42559 -l
    master2:42559<br>
     <br>
    master2# ps -ef |grep pbs<br>
    root      24491      1  0 16:05 ?        00:00:00
    /usr/sbin/pbs_server -d /var/spool/torque --ha -l master1:42559 -l
    master2:42559<br>
    <br>
    Now the active pbs_server is running on master1:<br>
    master1# qstat -a | head -2<br>
    <br>
    master1:<br>
    <br>
    Now I stop pbs_server on master2 (switching off master2 machine gets
    the same result):<br>
    <br>
    master2# /etc/init.d/pbs_server stop<br>
    <br>
    On master1, pbs_server is shutdown (Shutdown request is from
    mater2):<br>
    <br>
    master1# tail -f /var/spool/torque/server_logs/<a href="tel:20130422" value="+85220130422" target="_blank">20130422</a><br>
    04/22/2013 16:14:57;0086;PBS_Server.73628;Svr;PBS_Server;Shutdown
    request from root@master2<br>
    04/22/2013 16:14:57;0086;PBS_Server.73628;Svr;PBS_Server;Starting to
    shutdown the server, type is Quick<br>
    04/22/2013 16:14:57;0002;PBS_Server.67328;Svr;PBS_Server;Server
    shutdown completed<br>
    04/22/2013 16:14:57;0002;PBS_Server.67328;Svr;Log;Log closed<br>
    <br>
    I found the shutdown behavior is triggered by qterm in
    /etc/init.d/pbs_server stop() function.<br>
    <br>
    stop() {<br>
        status pbs_server &gt;/dev/null 2&gt;&amp;1<br>
        if [ $? -ne 0 ]; then<br>
            echo &quot;pbs_server is not running.&quot;<br>
            exit 0<br>
        fi<br>
        echo -n &quot;Shutting down TORQUE Server: &quot;<br>
        <b>$BIN_PATH/qterm</b><br>
        RET=$?<br>
        if [[ $RET -ne 0 ]]; then<br>
          killproc pbs_server -TERM<br>
          RET=$?<br>
        fi<br>
    <br>
        rm -f /var/lock/subsys/pbs_server<br>
        echo<br>
    }<br>
    <br>
    I saw there is no &quot;qterm&quot; in Torque earlier version. Why does qterm
    kill neighbor&#39;s pbs_server, not itself?<br>
    Is this pbs_server init script not suitable for HA setup?<br>
    <br>
    Thanks.<span class="HOEnZb"><font color="#888888"><br>
  </font></span></div><span class="HOEnZb"><font color="#888888">

</font></span></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><br>-- <br>Clotho Tsang<br>Senior Software Engineer<br>Cluster Technology Limited<br>Email: <a href="mailto:clotho@clustertech.com" target="_blank">clotho@clustertech.com</a><br>

Tel: <a href="tel:%28852%29%202655-6129" value="+85226556129" target="_blank">(852) 2655-6129</a><br>
Fax: <a href="tel:%28852%29%202994-2101" value="+85229942101" target="_blank">(852) 2994-2101</a><br>Website: <a href="http://www.clustertech.com" target="_blank">www.clustertech.com</a><br>
</font></span></div>
</blockquote></div><br><br clear="all"><br>-- <br>Clotho Tsang<br>Senior Software Engineer<br>Cluster Technology Limited<br>Email: <a href="mailto:clotho@clustertech.com" target="_blank">clotho@clustertech.com</a><br>Tel: (852) 2655-6129<br>

Fax: (852) 2994-2101<br>Website: <a href="http://www.clustertech.com" target="_blank">www.clustertech.com</a><br>
</div>