<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body dir="auto"><div>Yes, I did reinstall pbs server as well. &nbsp;What about the following error:</div><div><br></div><div><blockquote type="cite"><div class="WordSection1"><div><p class="MsoNormal" style="font-family: 'Times New Roman', serif;">qsub -I -l nodes=1:ppn=1:gpus=2<o:p></o:p></p></div><div><p class="MsoNormal" style="font-family: 'Times New Roman', serif;"><o:p>&nbsp;</o:p></p></div><div><p class="MsoNormal" style="font-family: 'Times New Roman', serif;">--<o:p></o:p></p></div><div><p class="MsoNormal" style="font-family: 'Times New Roman', serif;">PBS_Server: LOG_ERROR::Undefined attribute &nbsp;(15002) in send_job, child failed in previous commit request for job 7173.xx<o:p></o:p></p></div><div><p class="MsoNormal" style="font-family: 'Times New Roman', serif;">--</p></div></div></blockquote><div><br></div>I can't seem to submit a job when asking for those resources and how do I make sure that jobs are spread across all available GPU's instead of all jobs going to the very first GPU.</div><div><br></div><div>Thanks.</div><div>-J</div><div><br>On Oct 1, 2013, at 8:56 PM, "Andrus, Brian Contractor" &lt;<a href="mailto:bdandrus@nps.edu">bdandrus@nps.edu</a>&gt; wrote:<br><br></div><blockquote type="cite"><div>

<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->


<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">That’s all you will see: gpus=x<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">Did you reinstall pbs_server as well?
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">Brian Andrus<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">ITACS/Research Computing<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">Naval Postgraduate School<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">Monterey, California<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D">voice: 831-656-6238<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:&quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> <a href="mailto:torqueusers-bounces@supercluster.org">torqueusers-bounces@supercluster.org</a> [<a href="mailto:torqueusers-bounces@supercluster.org">mailto:torqueusers-bounces@supercluster.org</a>]
<b>On Behalf Of </b>Jagga Soorma<br>
<b>Sent:</b> Tuesday, October 01, 2013 11:45 AM<br>
<b>To:</b> <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<b>Subject:</b> [torqueusers] Trying to get gpu support enabled with Torque 2.5.9<o:p></o:p></span></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<div>
<p class="MsoNormal">Hi Guys,<o:p></o:p></p>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">I have a need to enable gpu support on my existing cluster and I have spun up a new test environment with the same Torque 2.5.9 version and configured it the following way:<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">On the server (does not have any gpus):<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">./configure --enable-nvidia-gpus --with-debug --with-nvidia-gpus<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">make&nbsp;<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">make install<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">update the config files and started pbs_sched &amp; pbs_server<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">On the client (this has 3 GPU's - Tesla M2050s)<o:p></o:p></p>
</div>
<div>
<div>
<p class="MsoNormal">./configure -with-debug --enable-nvidia-gpus --with-nvml-lib=/var/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/lib64 --with-nvml-include=/v<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">ar/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/include<o:p></o:p></p>
</div>
</div>
<div>
<p class="MsoNormal">make<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">make rpm<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">then installed the torque and torque-client rpm. &nbsp;Pointed this client to the server and started the pbs_mom daemon.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">On the server this client now shows up as connected and free for use and I can submit a simple interactive job.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">However, I was expecting the pbsnodes command to give me status on the GPU's attached to my clients, but all I see is:<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">--<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">node1<o:p></o:p></p>
</div>
<div>
<div>
<p class="MsoNormal">&nbsp; &nbsp; &nbsp;state = free<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">&nbsp; &nbsp; &nbsp;np = 16<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">&nbsp; &nbsp; &nbsp;ntype = cluster<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">&nbsp; &nbsp; &nbsp;status = rectime=1380652415,varattr=,jobs=,state=free,netload=674176243914,gres=,loadave=0.01,ncpus=16,physmem=24730388kb,availmem=48833164kb,totmem=49904200kb,idletime=852,nusers=0,nsessions=? 15201,sessions=? 15201,uname=Linux amber12
 2.6.32.54-0.3-default #1 SMP 2012-01-27 17:38:56 +0100 x86_64,opsys=linux<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">&nbsp; &nbsp; &nbsp;gpus = 3<o:p></o:p></p>
</div>
</div>
<div>
<p class="MsoNormal">--<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">Also, if I try to submit a job requesting a gpu I get the following error:<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">qsub -I -l nodes=1:ppn=1:gpus=2<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">--<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">PBS_Server: LOG_ERROR::Undefined attribute &nbsp;(15002) in send_job, child failed in previous commit request for job 7173.xx<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">--<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">How can I get GPU support enabled? &nbsp;Am I missing something here. &nbsp;Also, what I am trying to achieve is to allow torque to better spread jobs across the 3 different GPU's. &nbsp;Looks like in our current environment it loads up the first GPU
 and never tries to balance the jobs across the other 2 available GPU's.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">Any help would be appreciated.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">Thanks,<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">-J<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</div>
</div>


</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>torqueusers mailing list</span><br><span><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a></span><br><span><a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a></span><br></div></blockquote></body></html>