<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body bgcolor="#FFFFFF">
<div>I reported a bug with the same. Symptoms in an earlier version. &nbsp;It was fixed in 4.3.2 version I think. &nbsp;Sounds like it may be broke again.<br>
<br>
Sent from my iPa</div>
<div><br>
On Oct 2, 2013, at 12:39 PM, &quot;Jagga Soorma&quot; &lt;<a href="mailto:jagga13@gmail.com">jagga13@gmail.com</a>&gt; wrote:<br>
<br>
</div>
<div></div>
<blockquote type="cite">
<div>
<div dir="ltr">Thanks for your reply Eva. &nbsp;I just tried compiling the 4.2.5 release but still can't see the gpu status. &nbsp;Here is what I have done:
<div><br>
</div>
<div>--</div>
<div>On server did:</div>
<div>./configure --enable-nvidia-gpus --enable-debug<br>
</div>
<div>make</div>
<div>make install</div>
<div><br>
</div>
<div>On client did:</div>
<div>./configure --enable-nvidia-gpus --enable-debug<br>
</div>
<div>make</div>
<div>make rpm</div>
<div>installed the torque and torque-client rpm</div>
<div><br>
</div>
<div>I now see my node but don't see any gpu options besides my gpus defined resource:</div>
<div><br>
</div>
<div>
<div>server&gt; pbsnodes -a</div>
<div>node01</div>
<div>&nbsp; &nbsp; &nbsp;state = free</div>
<div>&nbsp; &nbsp; &nbsp;np = 16</div>
<div>&nbsp; &nbsp; &nbsp;ntype = cluster</div>
<div>&nbsp; &nbsp; &nbsp;status = rectime=1380735451,varattr=,jobs=,state=free,netload=674812433094,gres=,loadave=0.08,ncpus=16,physmem=24730388kb,availmem=48777992kb,totmem=49904200kb,idletime=1150,nusers=0,nsessions=0,uname=Linux node01 2.6.32.54-0.3-default #1 SMP 2012-01-27
 17:38:56 &#43;0100 x86_64,opsys=linux</div>
<div>&nbsp; &nbsp; &nbsp;mom_service_port = 15002</div>
<div>&nbsp; &nbsp; &nbsp;mom_manager_port = 15003</div>
<div>&nbsp; &nbsp; &nbsp;gpus = 3</div>
</div>
<div><br>
</div>
<div>node01&gt; nvidia-smi</div>
<div>Wed Oct &nbsp;2 10:38:13 2013 &nbsp; &nbsp; &nbsp;&nbsp;</div>
<div>&#43;------------------------------------------------------&#43; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</div>
<div>| NVIDIA-SMI 4.304.54 &nbsp; Driver Version: 304.54 &nbsp; &nbsp; &nbsp; &nbsp; | &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</div>
<div>|-------------------------------&#43;----------------------&#43;----------------------&#43;</div>
<div>| GPU &nbsp;Name &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | Bus-Id &nbsp; &nbsp; &nbsp; &nbsp;Disp. &nbsp;| Volatile Uncorr. ECC |</div>
<div>| Fan &nbsp;Temp &nbsp;Perf &nbsp;Pwr:Usage/Cap| Memory-Usage &nbsp; &nbsp; &nbsp; &nbsp; | GPU-Util &nbsp;Compute M. |</div>
<div>|===============================&#43;======================&#43;======================|</div>
<div>| &nbsp; 0 &nbsp;Tesla M2050 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;| 0000:06:00.0 &nbsp; &nbsp; Off | &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Off |</div>
<div>| N/A &nbsp; N/A &nbsp; &nbsp;P1 &nbsp; &nbsp;N/A / &nbsp;N/A | &nbsp; 0% &nbsp; &nbsp;7MB / 3071MB | &nbsp; &nbsp; &nbsp;0% &nbsp; E. Process |</div>
<div>&#43;-------------------------------&#43;----------------------&#43;----------------------&#43;</div>
<div>| &nbsp; 1 &nbsp;Tesla M2050 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;| 0000:14:00.0 &nbsp; &nbsp; Off | &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Off |</div>
<div>| N/A &nbsp; N/A &nbsp; &nbsp;P1 &nbsp; &nbsp;N/A / &nbsp;N/A | &nbsp; 0% &nbsp; &nbsp;7MB / 3071MB | &nbsp; &nbsp; &nbsp;0% &nbsp; E. Process |</div>
<div>&#43;-------------------------------&#43;----------------------&#43;----------------------&#43;</div>
<div>| &nbsp; 2 &nbsp;Tesla M2050 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;| 0000:11:00.0 &nbsp; &nbsp; Off | &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Off |</div>
<div>| N/A &nbsp; N/A &nbsp; &nbsp;P1 &nbsp; &nbsp;N/A / &nbsp;N/A | &nbsp; 0% &nbsp; &nbsp;7MB / 3071MB | &nbsp; &nbsp; &nbsp;0% &nbsp; E. Process |</div>
<div>&#43;-------------------------------&#43;----------------------&#43;----------------------&#43;</div>
<div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</div>
<div>&#43;-----------------------------------------------------------------------------&#43;</div>
<div>| Compute processes: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; GPU Memory |</div>
<div>| &nbsp;GPU &nbsp; &nbsp; &nbsp; PID &nbsp;Process name &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Usage &nbsp; &nbsp; &nbsp;|</div>
<div>|=============================================================================|</div>
<div>| &nbsp;No running compute processes found &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; |</div>
<div>&#43;-----------------------------------------------------------------------------&#43;</div>
<div>--</div>
<div><br>
</div>
<div>Am I missing some configuration to enable the gpu support?</div>
<div><br>
</div>
<div>Thanks,</div>
<div>-J</div>
<div><br>
</div>
</div>
<div class="gmail_extra"><br>
<br>
<div class="gmail_quote">On Wed, Oct 2, 2013 at 10:12 AM, Eva Hocks <span dir="ltr">
&lt;<a href="mailto:hocks@sdsc.edu" target="_blank">hocks@sdsc.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
<br>
<br>
Hi Jagga,<br>
<br>
I just set up gpu support in torque 4.2.5. I played around with the<br>
compile options and found the --with-nvml-lib and --with-nvml-include do<br>
not work. It shows the gpu_status for a second after staring pbs_mom and<br>
then the gpus vanish. torque 4.2.5 compiled with only<br>
--enable-nvidia-gpus however shows the gpu details and schedules gpu<br>
jobs just fine<br>
<br>
gpu-2-16<br>
&nbsp; &nbsp; &nbsp;state = free<br>
&nbsp; &nbsp; &nbsp;np = 32<br>
&nbsp; &nbsp; &nbsp;properties = batch,gtxtitan<br>
<div class="im">&nbsp; &nbsp; &nbsp;ntype = cluster<br>
&nbsp; &nbsp; &nbsp;status =<br>
</div>
rectime=1380733587,varattr=,jobs=,state=free,netload=77686187329,gres=,loadave=0.06,ncpus=32,physmem=264488<br>
144kb,availmem=265380468kb,totmem=272876736kb,idletime=1254,nusers=0,nsessions=0,uname=Linux<br>
gpu-2-16.local 2.6.32-358.18.1.el6.x86_64 #1 SMP Wed Aug 28 17:19:38 UTC 2013 x86_64,opsys=linux<br>
&nbsp; &nbsp; &nbsp;mom_service_port = 15002<br>
&nbsp; &nbsp; &nbsp;mom_manager_port = 15003<br>
&nbsp; &nbsp; &nbsp;gpus = 4<br>
&nbsp; &nbsp; &nbsp;gpu_status = gpu[3]=gpu_id=0000:84:00.0;gpu_product_name=GeForce GTX TITAN;gpu_display=N/A;gpu_pci_device_id=100510D<br>
E;gpu_pci_location_id=0000:84:00.0;gpu_fan_speed=30 %;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu<br>
_state=Unallocated;gpu_utilization=N/A;gpu_memory_utilization=N/A;gpu_ecc_mode=N/A;gpu_single_bit_ecc_errors=N/A;gpu_doub<br>
le_bit_ecc_errors=N/A;gpu_temperature=37 C,gpu[2]=gpu_id=0000:83:00.0;gpu_product_name=GeForce GTX<br>
TITAN;gpu_display=N/A;gpu_pci_device_id=100510DE;gpu_pci_location_id=0000:83:00.0;gpu_fan_speed=30<br>
%;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=N/A;gpu_memory_utilization=N/A;gpu_ecc_mode=N/A;gpu_single_bi<br>
t_ecc_errors=N/A;gpu_double_bit_ecc_errors=N/A;gpu_temperature=41 C,gpu[1]=gpu_id=0000:04:00.0;gpu_product_name=GeForce G<br>
TX TITAN;gpu_display=N/A;gpu_pci_device_id=100510DE;gpu_pci_location_id=0000:04:00.0;gpu_fan_speed=30<br>
%;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=N/A;gpu_memory_utilization=N/A;gpu_e<br>
cc_mode=N/A;gpu_single_bit_ecc_errors=N/A;gpu_double_bit_ecc_errors=N/A;gpu_temperature=38<br>
C,gpu[0]=gpu_id=0000:03:00.0;gpu_product_name=GeForce GTX TITAN;gpu_display=N/A;gpu_pci_device_id=100510DE;gpu_pci_location_id=0000:03:00.0;gpu_fan_spe<br>
ed=30 %;gpu_memory_total=6143 MB;gpu_memory_used=14 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=N/A;gpu_mem<br>
ory_utilization=N/A;gpu_ecc_mode=N/A;gpu_single_bit_ecc_errors=N/A;gpu_double_bit_ecc_errors=N/A;gpu_temperature=34<br>
C,driver_ver=325.15,timestamp=Wed Oct &nbsp;2 10:06:27 2013<br>
<br>
As for the job requesting gpus torque 4.2.5 will set the gpu in<br>
exclusive_thread if no mode is specified, thus only allowing 1 thread<br>
per gpu. Other options are exclusive_process and shared.<br>
<br>
<br>
I did not try torque 2.5.9, sorry<br>
<span class="HOEnZb"><font color="#888888"><br>
-Eva<br>
</font></span>
<div class="HOEnZb">
<div class="h5"><br>
On Tue, 1 Oct 2013, Jagga Soorma wrote:<br>
<br>
&gt; Hi Guys,<br>
&gt;<br>
&gt; I have a need to enable gpu support on my existing cluster and I have spun<br>
&gt; up a new test environment with the same Torque 2.5.9 version and configured<br>
&gt; it the following way:<br>
&gt;<br>
&gt; On the server (does not have any gpus):<br>
&gt; ./configure --enable-nvidia-gpus --with-debug --with-nvidia-gpus<br>
&gt; make<br>
&gt; make install<br>
&gt;<br>
&gt; update the config files and started pbs_sched &amp; pbs_server<br>
&gt;<br>
&gt; On the client (this has 3 GPU's - Tesla M2050s)<br>
&gt; ./configure -with-debug --enable-nvidia-gpus<br>
&gt; --with-nvml-lib=/var/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/lib64<br>
&gt; --with-nvml-include=/v<br>
&gt; ar/tmp/Tesla_Deployment_Kit/tdk_3.304.5/nvml/include<br>
&gt; make<br>
&gt; make rpm<br>
&gt;<br>
&gt; then installed the torque and torque-client rpm. &nbsp;Pointed this client to<br>
&gt; the server and started the pbs_mom daemon.<br>
&gt;<br>
&gt; On the server this client now shows up as connected and free for use and I<br>
&gt; can submit a simple interactive job.<br>
&gt;<br>
&gt; However, I was expecting the pbsnodes command to give me status on the<br>
&gt; GPU's attached to my clients, but all I see is:<br>
&gt;<br>
&gt; --<br>
&gt; node1<br>
&gt; &nbsp; &nbsp; &nbsp;state = free<br>
&gt; &nbsp; &nbsp; &nbsp;np = 16<br>
&gt; &nbsp; &nbsp; &nbsp;ntype = cluster<br>
&gt; &nbsp; &nbsp; &nbsp;status =<br>
&gt; rectime=1380652415,varattr=,jobs=,state=free,netload=674176243914,gres=,loadave=0.01,ncpus=16,physmem=24730388kb,availmem=48833164kb,totmem=49904200kb,idletime=852,nusers=0,nsessions=?<br>
&gt; 15201,sessions=? 15201,uname=Linux amber12 2.6.32.54-0.3-default #1 SMP<br>
&gt; 2012-01-27 17:38:56 &#43;0100 x86_64,opsys=linux<br>
&gt; &nbsp; &nbsp; &nbsp;gpus = 3<br>
&gt; --<br>
&gt;<br>
&gt; Also, if I try to submit a job requesting a gpu I get the following error:<br>
&gt;<br>
&gt; qsub -I -l nodes=1:ppn=1:gpus=2<br>
&gt;<br>
&gt; --<br>
&gt; PBS_Server: LOG_ERROR::Undefined attribute &nbsp;(15002) in send_job, child<br>
&gt; failed in previous commit request for job 7173.xx<br>
&gt; --<br>
&gt;<br>
&gt; How can I get GPU support enabled? &nbsp;Am I missing something here. &nbsp;Also,<br>
&gt; what I am trying to achieve is to allow torque to better spread jobs across<br>
&gt; the 3 different GPU's. &nbsp;Looks like in our current environment it loads up<br>
&gt; the first GPU and never tries to balance the jobs across the other 2<br>
&gt; available GPU's.<br>
&gt;<br>
&gt; Any help would be appreciated.<br>
&gt;<br>
&gt; Thanks,<br>
&gt; -J<br>
&gt;<br>
<br>
</div>
</div>
<div class="HOEnZb">
<div class="h5">_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div>
</div>
</blockquote>
</div>
<br>
</div>
</div>
</blockquote>
<blockquote type="cite">
<div><span>_______________________________________________</span><br>
<span>torqueusers mailing list</span><br>
<span><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a></span><br>
<span><a href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a></span><br>
</div>
</blockquote>
</body>
</html>