<div dir="ltr">Thanks, I&#39;ve been pulling my hair out over this for quite some time now! Recompiled with --disable-privports and looks like that did the trick.</div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Sat, Apr 20, 2013 at 11:36 AM, Chris Hunter <span dir="ltr">&lt;<a href="mailto:chris.hunter@yale.edu" target="_blank">chris.hunter@yale.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
This is a known problem. Solution is courtesy of brock palen who hosts the RCE podcasts.<br>
<br>
<a href="http://www.supercluster.org/pipermail/torqueusers/2011-March/012425.html" target="_blank">http://www.supercluster.org/<u></u>pipermail/torqueusers/2011-<u></u>March/012425.html</a><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
# release sockets faster because we use a lot of them<br>
net.ipv4.tcp_fin_timeout = 20<br>
# Reuse sockets as fast as possible<br>
net.ipv4.tcp_tw_reuse = 1<br>
net.ipv4.tcp_tw_recycle = 1<br>
<br>
You can also build torque to not use priv ports.<br>
Lastly you can increate job_stat_rate,<br>
</blockquote>
<br>
chris hunter<br>
yale hpc group<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Message: 4<br>
Date: Sat, 20 Apr 2013 11:29:14 -0500<br>
From: Sabuj Pattanayek &lt;<a href="mailto:sabujp@gmail.com" target="_blank">sabujp@gmail.com</a>&gt;<br>
Subject: [torqueusers] mount.nfs starts failing after pbs_server gets<br>
        &quot;warmed up&quot;, starts using up more than 700 sockets<br>
To: &quot;<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a>&quot; &lt;<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a>&gt;<br>
Message-ID:<br>
        &lt;CAEeMGHuw_<u></u>pwjqKAYVZ91fLAdav6WrdJ93=<a href="mailto:rPEVu_gWyrXefANA@mail.gmail.com" target="_blank">rPEVu<u></u>_gWyrXefANA@mail.gmail.com</a>&gt;<br>
Content-Type: text/plain; charset=&quot;iso-8859-1&quot;<br>
<br>
Hi,<br>
<br>
Anyone seen a problem where mount.nfs will start failing with :<br>
<br>
mount.nfs: mount(2): Input/output error<br>
mount.nfs: mount system call failed<br>
rc = 32 (return code)<br>
<br>
when pbs_server starts making lots of connections? I&#39;m fairly certain I&#39;ve<br>
tracked the problem down to pbs_server and not any other process because<br>
mount.nfs will reliably start working again after pbs_server is killed. We<br>
only have 36 nodes, the system running pbs_server is a KVM virtualized<br>
system running with 6 virtual procs, 9GB of RAM, system load is near 0:<br>
<br>
# uptime<br>
 11:27:27 up  9:10,  9 users,  load average: 0.11, 0.16, 0.30<br>
<br>
memory usage is negligible (free -m) :<br>
<br>
             total       used       free     shared    buffers     cached<br>
Mem:          8880       1401       7479          0        223        624<br>
-/+ buffers/cache:        553       8327<br>
Swap:         5119          0       5119<br>
<br>
I&#39;ve tried renicing pbs_server to 20, and ionicing it to class 3 (idle) to<br>
no avail. Anyone have any other ideas?<br>
<br>
Thanks,<br>
Sabuj<br>
</blockquote>
<br>
<br>
</blockquote></div><br></div>