<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On 19 November 2013 02:06, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div><div>I was able to resolve my intermittent connection issues by setting the following kernel tunables on the client:<br><br>sysctl -w net.ipv4.tcp_timestamps=1<br>sysctl -w net.ipv4.tcp_tw_recycle=1<br>

<br></div>However, there is only 1 server and 1 client in this torque test environment.  So, I still don&#39;t understand why setting the fast recycle of sockets that are in a time_wait state would help or be needed in this case.  I might be masking the real problem.<br>
</div></div></blockquote><div><br></div><div>Strange.</div><div><br></div><div>With net.ipv4.tcp_tw_recycle disabled set to 0, do you actually see many sockets in state TIME_WAIT with netstat when you hit the problem?</div>
<div><br></div><div>Perhaps you could run tcpdump/wireshark on the server and the client and examine the TCP streams for errors and to make sure that the client is receiving everything that is sent.</div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div>
<br>Has anyone run into this issue before?<br><br>Thanks,<br></div>-J<br></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Nov 18, 2013 at 3:50 PM, Ken Nielson <span dir="ltr">&lt;<a href="mailto:knielson@adaptivecomputing.com" target="_blank">knielson@adaptivecomputing.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>The &quot;cannot connect&quot; message looks suspiciously like it could be a firewall problem.<br>
<br>
</div>Regards <br></div><div class="gmail_extra"><div><div><br><br><div class="gmail_quote">On Fri, Nov 15, 2013 at 1:11 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">So, this is a brand new install of torque without anything running on the server/client except the torque processes.  I checked and I don&#39;t think the server is running into any process limits.  <div>


<br>
</div><div>I setup the server &amp; sched processes on the client itself and now am running everything on the client host to rule out external components.  I see the same problem with the connection to 15002 being a problem.  I had a 1Gig copper connection on this server as well and migrated my network to  a completely different nic and that did not help either.</div>



<div><br></div><div>This is really a bizarre one that I can&#39;t seem to find the cause for.  Any other things you guys think might help me troubleshoot this problem?  </div><div><br></div><div>Thanks,</div><div>-J</div>



</div><div class="gmail_extra"><br><br><div class="gmail_quote"><div><div>On Fri, Nov 15, 2013 at 4:05 AM, Jonathan Barber <span dir="ltr">&lt;<a href="mailto:jonathan.barber@gmail.com" target="_blank">jonathan.barber@gmail.com</a>&gt;</span> wrote:<br>



</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div><div dir="ltr"><div>On 15 November 2013 03:18, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>



</div><div class="gmail_extra"><div class="gmail_quote"><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">





<div dir="ltr"><div><div><div><div><div><div>I changed the log level and here is what I see on the server:<br><br></div><div>Looks like it is intermittently having issues connecting to port 15002 on the client.  This client was just fine under the 2.5.9 torque production environment that we have but seems to be intermittently having issues in the 2.5.13 test environment that is setup with gpu support.<br>






</div><div><br></div></div></div></div></div></div></div></blockquote></div><div>[snip] </div><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">





<div dir="ltr"><div><div><div><div><div><div></div></div></div><br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a> state from QUEUED-QUEUED to RUNNING-PRERUN (4-40)<br>11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a>;forking in send_job<br>






<b>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>






<b>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>






11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a>;entering post_sendmom<br></div></div></div></div></blockquote><div><br></div></div><div>You might be running up against limits on the number of file descriptors the pbs_server process or the OS is allowed to have open. You can use tools such as lsof to see how many files the pbs_server has open:</div>





<div>$ sudo lsof -c pbs_server</div><div><br></div><div>It&#39;s also possible that you&#39;re running out of ports to bind to. Running lsof/netstat and looking to see if there are massive numbers of connections/files open will reveal this.</div>




<div><br></div></div>Although you say there is no firewall configured on the servers, do you know if there a firewall between the pbs_server and the nodes?</div><div class="gmail_extra"><br>
</div><div class="gmail_extra">You can do a simple TCP connect to the mom to see if it&#39;s listening:</div><div class="gmail_extra">$ nmap -p 15002 <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a> -oG -<div class="gmail_extra">





# Nmap 6.40 scan initiated Fri Nov 15 11:52:17 2013 as: nmap -p 15002 -oG - <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a></div><div class="gmail_extra">Host: 192.168.147.1 (<a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a>)<span style="white-space:pre-wrap">        </span>Status: Up</div>





<div class="gmail_extra">Host: 192.168.147.1 (<a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a>)<span style="white-space:pre-wrap">        </span>Ports: 15002/open/tcp//unknown///</div><div class="gmail_extra">




# Nmap done at Fri Nov 15 11:52:17 2013 -- 1 IP address (1 host up) scanned in 0.04 seconds</div>
<div>$ <br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Or continuously with hping3 (I&#39;m sure there are other tools that will do this as well):</div><div class="gmail_extra"><div class="gmail_extra">





$ sudo hping3 -S -p 15002 <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a></div><div class="gmail_extra">HPING <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a> (em1 192.168.147.1): S set, 40 headers + 0 data bytes</div>





<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=0 win=14600 rtt=1.5 ms</div><div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=1 win=14600 rtt=0.8 ms</div>





<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=2 win=14600 rtt=0.6 ms</div><div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=3 win=14600 rtt=1.0 ms</div>





<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=4 win=14600 rtt=1.2 ms</div><div><br></div><div>(SA means it&#39;s open)</div><div><br></div></div><div>HTH</div><span><font color="#888888">-- <br>



Jonathan Barber &lt;<a href="mailto:jonathan.barber@gmail.com" target="_blank">jonathan.barber@gmail.com</a>&gt;
</font></span></div></div>
<br></div></div><div>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></div></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><br></div></div><span><font color="#888888">-- <br>Ken Nielson<br><a href="tel:%2B1%20801.717.3700" value="+18017173700" target="_blank">+1 801.717.3700</a> office <a href="tel:%2B1%20801.717.3738" value="+18017173738" target="_blank">+1 801.717.3738</a> fax<br>

1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br>
<br>
</font></span></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Jonathan Barber &lt;<a href="mailto:jonathan.barber@gmail.com">jonathan.barber@gmail.com</a>&gt;
</div></div>