<div dir="ltr">Hi Guys,<div><br></div><div>I have a need to enable gpu support on my existing cluster and I have spun up a new test environment with the same Torque 2.5.9 version and configured it the following way:</div><div>
<br></div><div>On the server (does not have any gpus):</div><div>./configure --enable-nvidia-gpus --with-debug --with-nvidia-gpus<br></div><div>make </div><div>make install</div><div><br></div><div>update the config files and started pbs_sched &amp; pbs_server</div>
<div><br></div><div>On the client (this has 3 GPU&#39;s - Tesla M2050s)</div><div><div>./configure -with-debug --enable-nvidia-gpus --with-nvml-lib=/var/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/lib64 --with-nvml-include=/v</div>
<div>ar/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/include</div></div><div>make</div><div>make rpm</div><div><br></div><div>then installed the torque and torque-client rpm.  Pointed this client to the server and started the pbs_mom daemon.</div>
<div><br></div><div>On the server this client now shows up as connected and free for use and I can submit a simple interactive job.</div><div><br></div><div>However, I was expecting the pbsnodes command to give me status on the GPU&#39;s attached to my clients, but all I see is:</div>
<div><br></div><div>--</div><div>node1</div><div><div>     state = free</div><div>     np = 16</div><div>     ntype = cluster</div><div>     status = rectime=1380652415,varattr=,jobs=,state=free,netload=674176243914,gres=,loadave=0.01,ncpus=16,physmem=24730388kb,availmem=48833164kb,totmem=49904200kb,idletime=852,nusers=0,nsessions=? 15201,sessions=? 15201,uname=Linux amber12 2.6.32.54-0.3-default #1 SMP 2012-01-27 17:38:56 +0100 x86_64,opsys=linux</div>
<div>     gpus = 3</div></div><div>--</div><div><br></div><div>Also, if I try to submit a job requesting a gpu I get the following error:</div><div><br></div><div>qsub -I -l nodes=1:ppn=1:gpus=2<br></div><div><br></div><div>
--</div><div>PBS_Server: LOG_ERROR::Undefined attribute  (15002) in send_job, child failed in previous commit request for job 7173.xx<br></div><div>--</div><div><br></div><div>How can I get GPU support enabled?  Am I missing something here.  Also, what I am trying to achieve is to allow torque to better spread jobs across the 3 different GPU&#39;s.  Looks like in our current environment it loads up the first GPU and never tries to balance the jobs across the other 2 available GPU&#39;s.</div>
<div><br></div><div>Any help would be appreciated.</div><div><br></div><div>Thanks,</div><div>-J</div><div><br></div><div><br></div></div>