<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>Hi,</div><div><br class="webkit-block-placeholder"></div><div>I sent this email over the weekend to the list. Have not seen anyone respond.</div><div><br class="webkit-block-placeholder"></div><div>I am resending the email just in case.</div><div><br class="webkit-block-placeholder"></div><div>Also, how are others here using Torque in a HA setting? The new --ha flag is only available in the current snapshots and I was wondering if that is the only option.</div><div><br class="webkit-block-placeholder"></div><div>Thanks,</div><div>Prakash</div><div><br class="webkit-block-placeholder"></div><div><br class="webkit-block-placeholder"></div>Hello All,<br><br>I am trying to set up Torque (2.3.0) in a High Availability mode (NOT with the inbuilt HA feature that you start with --ha flag to pbs_server, but with heartbeat and shared storage using OCFS2).<br><br>Here is the setup:<br><br>torqueserver1:<br><span class="Apple-tab-span" style="white-space: pre; ">        </span>NIC eth0 - a.a.a.a<br><span class="Apple-tab-span" style="white-space: pre; ">        </span>NIC eth1 - b.b.b.b<br><br>torqueserver2:<br><span class="Apple-tab-span" style="white-space: pre; ">        </span>NIC eth0 - c.c.c.c<br><span class="Apple-tab-span" style="white-space: pre; ">        </span>NIC eth1 - d.d.d.d<br><br>I have both the eth1's connected to the cluster's private network. Both the eth0's are connected to the public nework. I currently do not have a separate heartbeat link between the servers, but soon will establish a serial link. Currently I am using eth1 for heartbeat too.<br><br>My HA resources that are being failed over are:<br><br>IP address - e.e.e.e (which will be in the public network)<br>IP address - f.f.f.f (which will be in the cluster private network)<br><br>I want a DNS entry for e.e.e.e (public IP) to be torqueserver and that is the IP address I want should be recognized as the server_name.<br><br>So essentially, when torqueserver1 goes down (scheduled or unscheduled), I would like e.e.e.e and f.f.f.f failed over to torqueserver2 and the DNS entry is still valid (as in any heartbeat managed IP resource).<br><br>How should my different configuration files be for this case (server_name in server/MOM, mom_priv/config etc.)? And does anyone already have this setup working?<br><br>I stumbled across this site while googling, but the status area warns that it is not working.&nbsp;<a href="http://www.gridpp.ac.uk/wiki/High_Availabilty_Torque">http://www.gridpp.ac.uk/wiki/High_Availabilty_Torque</a>.<br><br>I am also planning on doing the same with Moab, but that seems to be more difficult compared to this.<br><br>Thanks a lot,<br>Prakash</body></html>