Doug,<div><br></div><div>Have you tried using the --with-nvml-include=&lt;path&gt; option in configure? This has pbs_mom use the nvidia API for these calls, and should speed things up a bit. The path should be the path to the nvml.h file and is usually:</div>
<div>/usr/local/cuda/CUDAToolsSDK/NVML/</div><div><br></div><div>David<br><br><div class="gmail_quote">On Wed, Feb 15, 2012 at 4:15 PM, Doug Johnson <span dir="ltr">&lt;<a href="mailto:djohnson@osc.edu">djohnson@osc.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
Has anyone noticed the overhead when enabling GPU support in torque?<br>
The nvidia-smi process requires about 4 cpu seconds for each<br>
invocation.  When executing a non-GPU code that uses all the cores<br>
this results in a bit of oversubscription of the cores.  Since<br>
nvidia-smi is executed every 30 seconds to collect card state this<br>
results in a measurable decrease in performance.<br>
<br>
As a workaround I&#39;ve enabled &#39;persistence mode&#39; for the card.  When<br>
not in use, the card is apparently not initialized.  With persistence<br>
mode enabled the cpu time to execute the command is reduced to ~0.02.<br>
This will also help with the execution time of short kernels, as the<br>
card will be ready to go.<br>
<br>
Do other people run with persistence mode enabled?  Are there any<br>
downsides?<br>
<br>
Doug<br>
<br>
PS. I think if X were running this would not be an issue.<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>
</div>