<div dir="ltr">Thanks for your reply Eva.  I just tried compiling the 4.2.5 release but still can&#39;t see the gpu status.  Here is what I have done:<div><br></div><div>--</div><div>On server did:</div><div>./configure --enable-nvidia-gpus --enable-debug<br>
</div><div>make</div><div>make install</div><div><br></div><div>On client did:</div><div>./configure --enable-nvidia-gpus --enable-debug<br></div><div>make</div><div>make rpm</div><div>installed the torque and torque-client rpm</div>
<div><br></div><div>I now see my node but don&#39;t see any gpu options besides my gpus defined resource:</div><div><br></div><div><div>server&gt; pbsnodes -a</div><div>node01</div><div>     state = free</div><div>     np = 16</div>
<div>     ntype = cluster</div><div>     status = rectime=1380735451,varattr=,jobs=,state=free,netload=674812433094,gres=,loadave=0.08,ncpus=16,physmem=24730388kb,availmem=48777992kb,totmem=49904200kb,idletime=1150,nusers=0,nsessions=0,uname=Linux node01 2.6.32.54-0.3-default #1 SMP 2012-01-27 17:38:56 +0100 x86_64,opsys=linux</div>
<div>     mom_service_port = 15002</div><div>     mom_manager_port = 15003</div><div>     gpus = 3</div></div><div><br></div><div>node01&gt; nvidia-smi</div><div>Wed Oct  2 10:38:13 2013       </div><div>+------------------------------------------------------+                       </div>
<div>| NVIDIA-SMI 4.304.54   Driver Version: 304.54         |                       </div><div>|-------------------------------+----------------------+----------------------+</div><div>| GPU  Name                     | Bus-Id        Disp.  | Volatile Uncorr. ECC |</div>
<div>| Fan  Temp  Perf  Pwr:Usage/Cap| Memory-Usage         | GPU-Util  Compute M. |</div><div>|===============================+======================+======================|</div><div>|   0  Tesla M2050              | 0000:06:00.0     Off |                  Off |</div>
<div>| N/A   N/A    P1    N/A /  N/A |   0%    7MB / 3071MB |      0%   E. Process |</div><div>+-------------------------------+----------------------+----------------------+</div><div>|   1  Tesla M2050              | 0000:14:00.0     Off |                  Off |</div>
<div>| N/A   N/A    P1    N/A /  N/A |   0%    7MB / 3071MB |      0%   E. Process |</div><div>+-------------------------------+----------------------+----------------------+</div><div>|   2  Tesla M2050              | 0000:11:00.0     Off |                  Off |</div>
<div>| N/A   N/A    P1    N/A /  N/A |   0%    7MB / 3071MB |      0%   E. Process |</div><div>+-------------------------------+----------------------+----------------------+</div><div>                                                                               </div>
<div>+-----------------------------------------------------------------------------+</div><div>| Compute processes:                                               GPU Memory |</div><div>|  GPU       PID  Process name                                     Usage      |</div>
<div>|=============================================================================|</div><div>|  No running compute processes found                                         |</div><div>+-----------------------------------------------------------------------------+</div>
<div>--</div><div><br></div><div>Am I missing some configuration to enable the gpu support?</div><div><br></div><div>Thanks,</div><div>-J</div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Wed, Oct 2, 2013 at 10:12 AM, Eva Hocks <span dir="ltr">&lt;<a href="mailto:hocks@sdsc.edu" target="_blank">hocks@sdsc.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
<br>
<br>
Hi Jagga,<br>
<br>
I just set up gpu support in torque 4.2.5. I played around with the<br>
compile options and found the --with-nvml-lib and --with-nvml-include do<br>
not work. It shows the gpu_status for a second after staring pbs_mom and<br>
then the gpus vanish. torque 4.2.5 compiled with only<br>
--enable-nvidia-gpus however shows the gpu details and schedules gpu<br>
jobs just fine<br>
<br>
gpu-2-16<br>
     state = free<br>
     np = 32<br>
     properties = batch,gtxtitan<br>
<div class="im">     ntype = cluster<br>
     status =<br>
</div>rectime=1380733587,varattr=,jobs=,state=free,netload=77686187329,gres=,loadave=0.06,ncpus=32,physmem=264488<br>
144kb,availmem=265380468kb,totmem=272876736kb,idletime=1254,nusers=0,nsessions=0,uname=Linux<br>
gpu-2-16.local 2.6.32-358.18.1.el6.x86_64 #1 SMP Wed Aug 28 17:19:38 UTC 2013 x86_64,opsys=linux<br>
     mom_service_port = 15002<br>
     mom_manager_port = 15003<br>
     gpus = 4<br>
     gpu_status = gpu[3]=gpu_id=0000:84:00.0;gpu_product_name=GeForce GTX TITAN;gpu_display=N/A;gpu_pci_device_id=100510D<br>
E;gpu_pci_location_id=0000:84:00.0;gpu_fan_speed=30 %;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu<br>
_state=Unallocated;gpu_utilization=N/A;gpu_memory_utilization=N/A;gpu_ecc_mode=N/A;gpu_single_bit_ecc_errors=N/A;gpu_doub<br>
le_bit_ecc_errors=N/A;gpu_temperature=37 C,gpu[2]=gpu_id=0000:83:00.0;gpu_product_name=GeForce GTX<br>
TITAN;gpu_display=N/A;gpu_pci_device_id=100510DE;gpu_pci_location_id=0000:83:00.0;gpu_fan_speed=30<br>
%;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=N/A;gpu_memory_utilization=N/A;gpu_ecc_mode=N/A;gpu_single_bi<br>
t_ecc_errors=N/A;gpu_double_bit_ecc_errors=N/A;gpu_temperature=41 C,gpu[1]=gpu_id=0000:04:00.0;gpu_product_name=GeForce G<br>
TX TITAN;gpu_display=N/A;gpu_pci_device_id=100510DE;gpu_pci_location_id=0000:04:00.0;gpu_fan_speed=30<br>
%;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=N/A;gpu_memory_utilization=N/A;gpu_e<br>
cc_mode=N/A;gpu_single_bit_ecc_errors=N/A;gpu_double_bit_ecc_errors=N/A;gpu_temperature=38<br>
C,gpu[0]=gpu_id=0000:03:00.0;gpu_product_name=GeForce GTX TITAN;gpu_display=N/A;gpu_pci_device_id=100510DE;gpu_pci_location_id=0000:03:00.0;gpu_fan_spe<br>
ed=30 %;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=N/A;gpu_mem<br>
ory_utilization=N/A;gpu_ecc_mode=N/A;gpu_single_bit_ecc_errors=N/A;gpu_double_bit_ecc_errors=N/A;gpu_temperature=34<br>
C,driver_ver=325.15,timestamp=Wed Oct  2 10:06:27 2013<br>
<br>
As for the job requesting gpus torque 4.2.5 will set the gpu in<br>
exclusive_thread if no mode is specified, thus only allowing 1 thread<br>
per gpu. Other options are exclusive_process and shared.<br>
<br>
<br>
I did not try torque 2.5.9, sorry<br>
<span class="HOEnZb"><font color="#888888"><br>
-Eva<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
On Tue, 1 Oct 2013, Jagga Soorma wrote:<br>
<br>
&gt; Hi Guys,<br>
&gt;<br>
&gt; I have a need to enable gpu support on my existing cluster and I have spun<br>
&gt; up a new test environment with the same Torque 2.5.9 version and configured<br>
&gt; it the following way:<br>
&gt;<br>
&gt; On the server (does not have any gpus):<br>
&gt; ./configure --enable-nvidia-gpus --with-debug --with-nvidia-gpus<br>
&gt; make<br>
&gt; make install<br>
&gt;<br>
&gt; update the config files and started pbs_sched &amp; pbs_server<br>
&gt;<br>
&gt; On the client (this has 3 GPU&#39;s - Tesla M2050s)<br>
&gt; ./configure -with-debug --enable-nvidia-gpus<br>
&gt; --with-nvml-lib=/var/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/lib64<br>
&gt; --with-nvml-include=/v<br>
&gt; ar/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/include<br>
&gt; make<br>
&gt; make rpm<br>
&gt;<br>
&gt; then installed the torque and torque-client rpm.  Pointed this client to<br>
&gt; the server and started the pbs_mom daemon.<br>
&gt;<br>
&gt; On the server this client now shows up as connected and free for use and I<br>
&gt; can submit a simple interactive job.<br>
&gt;<br>
&gt; However, I was expecting the pbsnodes command to give me status on the<br>
&gt; GPU&#39;s attached to my clients, but all I see is:<br>
&gt;<br>
&gt; --<br>
&gt; node1<br>
&gt;      state = free<br>
&gt;      np = 16<br>
&gt;      ntype = cluster<br>
&gt;      status =<br>
&gt; rectime=1380652415,varattr=,jobs=,state=free,netload=674176243914,gres=,loadave=0.01,ncpus=16,physmem=24730388kb,availmem=48833164kb,totmem=49904200kb,idletime=852,nusers=0,nsessions=?<br>
&gt; 15201,sessions=? 15201,uname=Linux amber12 2.6.32.54-0.3-default #1 SMP<br>
&gt; 2012-01-27 17:38:56 +0100 x86_64,opsys=linux<br>
&gt;      gpus = 3<br>
&gt; --<br>
&gt;<br>
&gt; Also, if I try to submit a job requesting a gpu I get the following error:<br>
&gt;<br>
&gt; qsub -I -l nodes=1:ppn=1:gpus=2<br>
&gt;<br>
&gt; --<br>
&gt; PBS_Server: LOG_ERROR::Undefined attribute  (15002) in send_job, child<br>
&gt; failed in previous commit request for job 7173.xx<br>
&gt; --<br>
&gt;<br>
&gt; How can I get GPU support enabled?  Am I missing something here.  Also,<br>
&gt; what I am trying to achieve is to allow torque to better spread jobs across<br>
&gt; the 3 different GPU&#39;s.  Looks like in our current environment it loads up<br>
&gt; the first GPU and never tries to balance the jobs across the other 2<br>
&gt; available GPU&#39;s.<br>
&gt;<br>
&gt; Any help would be appreciated.<br>
&gt;<br>
&gt; Thanks,<br>
&gt; -J<br>
&gt;<br>
<br>
</div></div><div class="HOEnZb"><div class="h5">_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br></div>