<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>Hi Daniel,</div><div><br></div>As you indicate, I also would like to do a IP takeover with services Torque/Moab failing over to the redundant node using Heartbeat.&nbsp;I have tried to implement that setup at my site and failed.<div><br></div><div>My thread at&nbsp;<a href="http://www.clusterresources.com/pipermail/torqueusers/2008-February/006883.html">http://www.clusterresources.com/pipermail/torqueusers/2008-February/006883.html</a> never got any useful response and I am still waiting.<div><div><br></div><div>Someone else replied off list, which also implies that this does not work.</div><div><div><br></div><div><font face="Arial"><font color="#0000ff"><font size="2">"I<span class="547552914-25022008">&nbsp;have been working on this very same model for almost a year, in bits and pieces.&nbsp; I have gone to the extent described at the site posted in the url you provided (<a href="http://www.gridpp.ac.uk/wiki/High_Availabilty_Torque"><font face="Times New Roman" size="3">http://www.gridpp.ac.uk/wiki/High_Availabilty_Torque</font></a>) using DRBD.&nbsp; The problem you eventually face is that TORQUE uses the gethostbyname routine to identify the host and therefore, when failingover, you eventually must have the failover node be identified as the original system.&nbsp; In other words, at some point, you are forced to rename the server being failed over to and reboot it.&nbsp; Additionally, what I have done is created a system startup script (hpcnetwork) that performs all the tasks to start or turn on dhpcd, named, pbs_server based on a ping to the primary master host (essentially what Linux HA code does).&nbsp; My goal was to have the HA script invoke the hpcnetwork script as a resource to perform the tasks for failover when the event was detected.</span></font></font></font></div><div><font face="Arial"><font color="#0000ff"><font size="2"><span class="547552914-25022008"></span></font></font></font>&nbsp;</div><div><font face="Arial"><font color="#0000ff"><font size="2"><span class="547552914-25022008">I continue to work on this as my own little project and have created a VMWARE cluster (2 masters, 1 compute node) sessions on my laptop to test.&nbsp; In addition to trying to get this to work, I have been trying to intergrate it into our kickstart scripts as part of an automated build procedure to create our HA clusters.&nbsp; I have most pieces working in some state or other, but none of it is what I would consider robust enough to consider placing in our production environments yet.</span></font></font></font></div><div><font face="Arial"><font color="#0000ff"><font size="2"><span class="547552914-25022008"></span></font></font></font>&nbsp;</div><div><font face="Arial"><font color="#0000ff"><font size="2"><span class="547552914-25022008">Additionally, I have downloaded a 2.3.snapshot and am now testing with this.&nbsp; The ability to have TORQUE and maui using a shared device rather than a block device that needs to be shared with something like DRBD, makes life much simpler from a configuration perspective.&nbsp; It certainly alliviates the necessity to configure something like DRBD on the fly.&nbsp; But for sites that don't have a redundant NAS device or for people that simply would rather use DRBD, it is still a worthy effort."</span></font></font></font></div><div><font class="Apple-style-span" color="#0000FF" face="Arial" size="2"><span class="Apple-style-span" style="font-size: 10px;"><br></span></font></div></div><div>Prakash</div><div><br></div><div><br><div><html>On Apr 9, 2008, at 2:30 PM, Daniel Bourque wrote:</html><br class="Apple-interchange-newline"><blockquote type="cite">thanks<br><br>how much disk space does /var/spool/torque/server_priv typically use ?<br><br>how about the maui scheduler ? should it be running on both headnodes, trying to communicate with localhost ?<br><br>I'm a little confused by the example, where the scheduler runs on the the hosts as pbs_mom and not pbs_server... is the intent to also failover the scheduler along with the shared file system ?<br><br><br>thanks again.<br><br>Daniel Bourque<br>Sr. Systems Engineer<br>WeatherData Service Inc<br>An Accuweather Company<br><br><br><br><br>Steve Snelgrove wrote:<br><br><blockquote type="cite">The 2.3 release of Torque has support for HA by allowing two head node server to access the server_priv files on a shared file system. &nbsp;See <a href="http://www.clusterresources.com/torquedocs21/4.3high-availability.shtml">http://www.clusterresources.com/torquedocs21/4.3high-availability.shtml</a> for more details.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Daniel Bourque wrote:<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><blockquote type="cite">Hi,<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"> &nbsp;&nbsp;We're planning on setting up a torque/Maui cluster. I'm planning on making the head node also be worker nodes, and for a 2nd worker node to be a failover headnode.<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">My intent is to use heartbeat to control the state of torque, Maui and a service IP.<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">Is this possible ?<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">what files need to be kept in sync ?<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">if the headnode fails, what happens to running jobs ?<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">if the headnode fails, when Maui start on the new headnode, will it query the pbs_mom daemons on the worker nodes to get usage info ?<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">Thanks<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><br></blockquote>_______________________________________________<br>torqueusers mailing list<br><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>http://www.supercluster.org/mailman/listinfo/torqueusers<br></blockquote></div><br><div> <span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>Prakash Velayutham</div><div>Programmer / Analyst</div><div>Cincinnati Children's Hospital Medical Center</div></div></span></div></span></div></span></div></span> </div><br></div></div></div></body></html>