<div dir="ltr">Andrew,<div><br></div><div>So are the processes for these completed jobs still existent on the nodes, or is the issue that exiting the process doesn&#39;t guarantee a release of the semaphore?</div><div><br>
</div><div>If the problem is that the processes are still there, I would look into the reaver script from pbs tools, or using cpusets for your jobs. Another common way of attacking this is by attempting to clean up user processes in an epilogue script. I would recommend the first two options over this one though.</div>
<div><br></div><div>David</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Sep 23, 2013 at 11:19 AM, Andrew Savchenko <span dir="ltr">&lt;<a href="mailto:bircoph@gmail.com" target="_blank">bircoph@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hello David,<br>
<div class="im"><br>
On Mon, 23 Sep 2013 09:56:13 -0600 David Beer wrote:<br>
&gt; Andrew,<br>
&gt;<br>
&gt; Can you be more specific about what you mean when you say semaphores?<br>
<br>
</div>I mean System V IPC semaphores, they can be seen via ipcs -s and<br>
their system wide limit is controlled via /proc/sys/kernel/sem.<br>
<div class="HOEnZb"><div class="h5"><br>
&gt; On Sat, Sep 21, 2013 at 3:09 PM, Andrew Savchenko &lt;<a href="mailto:bircoph@gmail.com">bircoph@gmail.com</a>&gt; wrote:<br>
&gt;<br>
&gt; &gt; Hello,<br>
&gt; &gt;<br>
&gt; &gt; is it possible to limit or isolate semaphores per job or user at<br>
&gt; &gt; worker node in torque?<br>
&gt; &gt;<br>
&gt; &gt; At our cluster we have a problem with buggy user jobs which left<br>
&gt; &gt; semaphores behind leading to semaphore limit exhaustion. While limit<br>
&gt; &gt; may be lifted, this is not a proper solution since it will be reached<br>
&gt; &gt; again later. ATM we a running cron job using some heuristics to<br>
&gt; &gt; determine which semaphores are safe to clear. But this is still<br>
&gt; &gt; nothing but a workaround.<br>
&gt; &gt;<br>
&gt; &gt; The proper way is to isolate job or at least user IPC namespace on<br>
&gt; &gt; nodes. This can be done using IPC namespace kernel feature, though I<br>
&gt; &gt; don&#39;t know if torque is capable of this or any other ways to control<br>
&gt; &gt; job&#39;s IPC.<br>
&gt; &gt;<br>
&gt; &gt; ATM we&#39;re using torque-3.0.6, though if 4.x branch is capable of this<br>
&gt; &gt; feature, it will be a good reason to migrate.<br>
<br>
<br>
Best regards,<br>
Andrew Savchenko<br>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>