<br><br><div class="gmail_quote">On Fri, Feb 8, 2013 at 3:24 PM, John Valdes <span dir="ltr">&lt;<a href="mailto:valdes@mcs.anl.gov" target="_blank">valdes@mcs.anl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
All,<br>
<br>
We&#39;ve been using Torque 2.3.x and Maui 3.2.6px on our modest size<br>
(~350 nodes), production, commodity cluster successfully now for the<br>
last 3 years or so, and while we have encountered minor bugs every now<br>
and then, for the most part it has been very stable and reliable.<br>
Nevertheless, we&#39;re thinking that we should upgrade to a current<br>
version of Torque and Maui (3.3.1), partly so that we&#39;re using an<br>
activately maintained codebase, but also to get cgroup and better GPU<br>
support.  However, there are so many branches of torque available now,<br>
I&#39;m not sure what version we should upgrade to.  We don&#39;t need any of<br>
the NUMA or scalability features of the 3.0 and 4.x branches, so<br>
should we stick to the 2.5.x branch?  That&#39;s getting pretty old now<br>
too, so maybe we should just go directly to one of the 4.x branches;<br>
if so, which one?<br>
<br>
Some more background, in case it factors into the decision:<br>
<br>
1) This is a commodity cluster, using multicore CPUs (eg, Intel<br>
   Nehalem and Sandy Bridge) and an IB interconnect.  While the nodes<br>
   are technically NUMA architecture, the scale is much smaller than<br>
   what I believe the NUMA support in torque &gt;= 3 intends to address,<br>
   so I don&#39;t think we would need the NUMA features of torque(?).<br>
<br></blockquote><div><br></div><div>You are correct that the NUMA support from TORQUE 3 is intended for larger NUMA machines.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

2) As I said, this is a production cluster, so stability and proper<br>
   operation are critical.  Issues like the one in this thread:<br>
   <a href="http://www.clusterresources.com/pipermail/torqueusers/2012-November/015236.html" target="_blank">http://www.clusterresources.com/pipermail/torqueusers/2012-November/015236.html</a><br>
   make me nervous about upgrading. :)<br>
<br></blockquote><div><br></div><div>I have little to no experience with Maui, so hopefully someone else can offer some advice on this point.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

3) We use QOS and classes fairly heavily (eg, for job prioritization<br>
   and for associating nodes with queues); while technically, those are<br>
   maui features, torque needs to cooperate properly w/ maui for those<br>
   to work as intended.<br>
<br></blockquote><div><br></div><div>All versions of TORQUE should be good for this requirement.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Any recommendations?  I can provide more information if needed.<br>
<br></blockquote><div><br></div><div>Here&#39;s how we are developing the different branches:</div><div><br></div><div>2.5.x - at this point, this is a legacy branch that will only get critical bug fixes.</div><div>3.0.x - end of life. </div>
<div>4.1.x - primarily a bug fix branch, but all bugs reported against it need to be fixed.</div><div>4.2.x - the latest and greatest. Currently 4.2.0 is marked EA (early access) as it has a few known issues. A better release of 4.2.0 should be available this week.</div>
<div><br></div><div>It sounds like you don&#39;t require the features that are in the 4 series, so the only consideration for whether or not you&#39;d want to go is really upgrading in the future. Any upgrade from something less than 4 to 4 or higher is a complete cluster upgrade - the protocol for the moms to talk to the server has changed and so moms from before 4 can&#39;t communicate with the server from the 4. This may be a really small consideration for you if you don&#39;t plan to upgrade again, but hopefully this can inform your decision a bit.</div>
</div><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>