<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"><base href="x-msg://11258/"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi,<div><br></div><div>Just yesterday I installed Torque 4.2.5 on a new GPU cluster and the issue mentioned by Simon (see the thread below) is still present in this version. Is there any fix/hack to get around this problem?</div><div><br></div><div>Whenever I restart pbs_server it just deletes the string 'gpus=8' from all the lines. Or like Simon &nbsp;mentioned just running pbsnodes would do the same.</div><div><br></div><div>Sreedhar.</div><div><br></div><div><br><div><div>On Jul 4, 2012, at 9:52 PM, Simon Brennan &lt;<a href="mailto:simon.brennan@ersa.edu.au">simon.brennan@ersa.edu.au</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div text="#000000" bgcolor="#FFFFFF" style="font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; ">Sean (my colleague) and I have still been banging our head against the wall with this issue.<br><br>We've got torque 3.0.4 with gpu support enabled, Cuda 4.0.<br><br>After some testing on my local desktop and a 17 node GPU cluster (mixture of Tesla cards and GTX cards) we've found that if you have a nodes file with the gpus= and attributes, plus you make a change to state of a node (pbsnodes -o / pbsnodes -r) that has both gpus= and an attribute, for some crazy unknown reason the nodes file is modified, all gpus= lines are removed and any # comments.<span class="Apple-converted-space">&nbsp;</span><br>Entries that only have a gpus= or an attribute aren't affected, only one nodes that have both.<br><br>Why is there even code in Torque (specifically pbs_server) that is capable of writing to the nodes file!!<br><br>Some examples.... BLAH is just a random node attribute<br><br>Test1<br>-=-=-=-=-=-=-=<br>nodes file contents:<br>node1 np=1 gpus=2 BLAH<br>node2 np=2<br><br>start torque server and mom.<br>#pbsnodes -r node2&nbsp;&nbsp;&nbsp; (File doesn't change)<br>#pbsnodes -r node1 &nbsp;&nbsp;&nbsp; (File changes after command is run, stat on file confirms this)<br><br>nodes file contents<br>node1 np=1 BLAH<br>node2 np=2<br>=-=-=-=-=-=-=<br><br>Test2<br>-=-=-=-=-=-=-=<br>nodes file contents:<br>node1 np=1 gpus=2 BLAH<br>node2 np=2 gpus=2<br><br>start torque server and mom.<br>#pbsnodes -r node2&nbsp;&nbsp;&nbsp; (File doesn't change)<br>#pbsnodes -r node1 &nbsp;&nbsp;&nbsp; (File changes after command is run, stat on file confirms this)<br><br>nodes file contents<br>node1 np=1 BLAH<br>node2 np=2<br>=-=-=-=-=-=-=<br><br><div class="moz-forward-container">Test3<br>-=-=-=-=-=-=-=<br>nodes file contents:<br>node1 np=1 BLAH<br>node2 np=2 gpus=2<br><br>start torque server and mom.<br>#pbsnodes -r node2&nbsp;&nbsp;&nbsp; (File changes after command is run, stat on file confirms this)<br><br>nodes file contents<br>node1 np=1 BLAH<br>node2 np=2<br>=-=-=-=-=-=-=<br><br>Test4<br>-=-=-=-=-=-=-=<br>nodes file contents:<br>node1 np=1 gpus=2<span class="Apple-converted-space">&nbsp;</span><br>node2 np=2 gpus=2<br><br>start torque server and mom.<br>#pbsnodes -r node2&nbsp;&nbsp;&nbsp; (File doesn't change)<br>#pbsnodes -r node1 &nbsp;&nbsp; (File doesn't change)<br><br>nodes file contents<br>node1 np=1 gpus=2<br>node2 np=2 gpus=2<br>=-=-=-=-=-=-=<br><br>Regards<br>Simon Brennan<br><br><br>-------- Original Message --------<table class="moz-email-headers-table" border="0" cellpadding="0" cellspacing="0"><tbody><tr><th nowrap="nowrap" valign="BASELINE" align="RIGHT">Subject:</th><td>Re: [torqueusers] nodes file persistent gpus setting</td></tr><tr><th nowrap="nowrap" valign="BASELINE" align="RIGHT">Date:</th><td>Thu, 17 May 2012 15:50:09 +1000</td></tr><tr><th nowrap="nowrap" valign="BASELINE" align="RIGHT">From:</th><td><a class="moz-txt-link-rfc2396E" href="mailto:Gareth.Williams@csiro.au" style="color: purple; text-decoration: underline; ">&lt;Gareth.Williams@csiro.au&gt;</a></td></tr><tr><th nowrap="nowrap" valign="BASELINE" align="RIGHT">Reply-To:</th><td>Torque Users Mailing List<span class="Apple-converted-space">&nbsp;</span><a class="moz-txt-link-rfc2396E" href="mailto:torqueusers@supercluster.org" style="color: purple; text-decoration: underline; ">&lt;torqueusers@supercluster.org&gt;</a></td></tr><tr><th nowrap="nowrap" valign="BASELINE" align="RIGHT">To:</th><td><a class="moz-txt-link-rfc2396E" href="mailto:torqueusers@supercluster.org" style="color: purple; text-decoration: underline; ">&lt;torqueusers@supercluster.org&gt;</a></td></tr></tbody></table><br><br><div class="WordSection1" style="page: WordSection1; "><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">HI Sean, Woah – we are _<i>not</i>_ using the integrated nvidia gpu support (so far anyway).&nbsp; Perhaps that wasn’t actually the problem on your system – are you really sure that solved the problem and was not just a coincidence? We have nvidia drivers (on that compute node) but no other nvidia software on this system.<o:p></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">&nbsp;</span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">Gareth<o:p></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">&nbsp;</span></div><div style="border-style: none none none solid; border-left-width: 1.5pt; border-left-color: blue; padding: 0cm 0cm 0cm 4pt; "><div><div style="border-style: solid none none; border-top-width: 1pt; border-top-color: rgb(181, 196, 223); padding: 3pt 0cm 0cm; "><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><b><span lang="EN-US" style="font-size: 10pt; font-family: Tahoma, sans-serif; color: windowtext; ">From:</span></b><span lang="EN-US" style="font-size: 10pt; font-family: Tahoma, sans-serif; color: windowtext; "><span class="Apple-converted-space">&nbsp;</span>Sean Reilly [<a class="moz-txt-link-freetext" href="mailto:sean.reilly@ersa.edu.au" style="color: purple; text-decoration: underline; ">mailto:sean.reilly@ersa.edu.au</a>]<span class="Apple-converted-space">&nbsp;</span><br><b>Sent:</b><span class="Apple-converted-space">&nbsp;</span>Thursday, 17 May 2012 12:21 PM<br><b>To:</b><span class="Apple-converted-space">&nbsp;</span>Torque Users Mailing List<br><b>Subject:</b><span class="Apple-converted-space">&nbsp;</span>Re: [torqueusers] nodes file persistent gpus setting<o:p></o:p></span></div></div></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p>&nbsp;</o:p></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Hi Gareth<br><br>We saw the same behaviour when we enabled the tdk-1.285&nbsp; libraries on the GPU backend Nodes in the ld.config path.<br><br>- It is needed on the CPU (non-gpu) Nodes<br>- But when added to the PATH&nbsp; on the GPU Nodes - the PBS_MOM complains about something missing (*Sorry I cant remember what it is&nbsp; - but it may have been some nvidia or&nbsp; nvc nvq&nbsp; type library*)<span class="Apple-converted-space">&nbsp;</span><br>&nbsp;&nbsp; - Then the PBS_MOM rewrites the nodes file on the server side.<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; *removing the gpus= &nbsp; or truncating the line from where 'gpus=' is written*<span class="Apple-converted-space">&nbsp;</span><br><br>this was fixed by commenting out these libs on the GPU backend Node.<br><br>/etc/ld.so.conf.d/tdk.conf<span class="Apple-converted-space">&nbsp;</span><br>#This file was made by puppet, do not edit it directly!<br>#/opt/shared/tdk/1.285/lib64<br>#/opt/shared/tdk/1.285/lib<br><br><br>Regards<br>Sean<br><br><br><br>On 17/05/12 05:56, Ken Nielson wrote:<o:p></o:p></div><div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">On Sun, Apr 1, 2012 at 7:36 PM, &lt;<a moz-do-not-send="true" href="mailto:Gareth.Williams@csiro.au" target="_blank" style="color: purple; text-decoration: underline; ">Gareth.Williams@csiro.au</a>&gt; wrote:<o:p></o:p></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Hi,<br><br>Can anyone confirm the following behavior (bug)?<br><br>If you give a node gpus like so:<br>&nbsp;qmgr -c 'set node gpunode01 gpus = 2'<br>or in the nodes file<br>&nbsp;gpunode01 np=12 gpus=2<br>Then the node has (logical) gpus defined and they can be scheduled as in:<br><a moz-do-not-send="true" href="http://www.adaptivecomputing.com/resources/docs/torque/3-0-3/1.5nodeconfig.php" target="_blank" style="color: purple; text-decoration: underline; ">http://www.adaptivecomputing.com/resources/docs/torque/3-0-3/1.5nodeconfig.php</a><br>(though 1.5.3 doesn't mention specifying both np= and gpus= which I suspect needs fixing).<br><br>This setup works fine for us until we restart the pbs_server at which time the gpus disappear (you can see this in the output of pbsnodes). The nodes file gets altered to remove the gpus= setting.<br><br>Note that we are using version 3.0.3-snap.xxx and NOT the integrated nvidia gpu support.<br><br>Does anyone else see the behavior? &nbsp;You don't need physical gpus to test, just a system you are prepared to mess with a little including restarting the pbs_server.<br><br>Regards,<br><br>Gareth<o:p></o:p></div></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><br>Gareth,<br><br>Have you entered a ticket in bugzilla for this.<br><br>Ken<br><br><o:p></o:p></div><pre style="margin: 0cm 0cm 0.0001pt; font-size: 10pt; font-family: 'Courier New'; "><o:p>&nbsp;</o:p></pre><pre style="margin: 0cm 0cm 0.0001pt; font-size: 10pt; font-family: 'Courier New'; "><o:p>&nbsp;</o:p></pre><pre style="margin: 0cm 0cm 0.0001pt; font-size: 10pt; font-family: 'Courier New'; ">_______________________________________________<o:p></o:p></pre><pre style="margin: 0cm 0cm 0.0001pt; font-size: 10pt; font-family: 'Courier New'; ">torqueusers mailing list<o:p></o:p></pre><pre style="margin: 0cm 0cm 0.0001pt; font-size: 10pt; font-family: 'Courier New'; "><a moz-do-not-send="true" href="mailto:torqueusers@supercluster.org" style="color: purple; text-decoration: underline; ">torqueusers@supercluster.org</a><o:p></o:p></pre><pre style="margin: 0cm 0cm 0.0001pt; font-size: 10pt; font-family: 'Courier New'; "><a moz-do-not-send="true" href="http://www.supercluster.org/mailman/listinfo/torqueusers" style="color: purple; text-decoration: underline; ">http://www.supercluster.org/mailman/listinfo/torqueusers</a><o:p></o:p></pre><p class="MsoNormal" style="margin: 0cm 0cm 12pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p>&nbsp;</o:p></p><div><div style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">--<span class="Apple-converted-space">&nbsp;</span><br><b><span style="font-size: 10pt; ">Sean Reilly</span></b><span style="font-size: 10pt; "><br><br>Systems Administrator &amp; Applications Support Officer<br>eResearchSA<br>Phone : +61 8 8313 8352<br>Mobile: +61 450 840 246<br><br><a moz-do-not-send="true" href="http://www.ersa.edu.au/moving" style="color: purple; text-decoration: underline; "><span style="text-decoration: none; "><span>&lt;Mail Attachment.png&gt;</span></span></a></span><o:p></o:p></div></div></div></div><br><br></div><br><span>&lt;Attached Message Part.txt&gt;</span>_______________________________________________<br>torqueusers mailing list<br><a href="mailto:torqueusers@supercluster.org" style="color: purple; text-decoration: underline; ">torqueusers@supercluster.org</a><br><a href="http://www.supercluster.org/mailman/listinfo/torqueusers" style="color: purple; text-decoration: underline; ">http://www.supercluster.org/mailman/listinfo/torqueusers</a></div></blockquote></div><br></div></body></html>