<div dir="ltr"><div>The &quot;cannot connect&quot; message looks suspiciously like it could be a firewall problem.<br><br></div>Regards <br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Nov 15, 2013 at 1:11 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">So, this is a brand new install of torque without anything running on the server/client except the torque processes.  I checked and I don&#39;t think the server is running into any process limits.  <div>
<br>
</div><div>I setup the server &amp; sched processes on the client itself and now am running everything on the client host to rule out external components.  I see the same problem with the connection to 15002 being a problem.  I had a 1Gig copper connection on this server as well and migrated my network to  a completely different nic and that did not help either.</div>

<div><br></div><div>This is really a bizarre one that I can&#39;t seem to find the cause for.  Any other things you guys think might help me troubleshoot this problem?  </div><div><br></div><div>Thanks,</div><div>-J</div>

</div><div class="gmail_extra"><br><br><div class="gmail_quote"><div><div class="h5">On Fri, Nov 15, 2013 at 4:05 AM, Jonathan Barber <span dir="ltr">&lt;<a href="mailto:jonathan.barber@gmail.com" target="_blank">jonathan.barber@gmail.com</a>&gt;</span> wrote:<br>

</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5"><div dir="ltr"><div>On 15 November 2013 03:18, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>

</div><div class="gmail_extra"><div class="gmail_quote"><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">



<div dir="ltr"><div><div><div><div><div><div>I changed the log level and here is what I see on the server:<br><br></div><div>Looks like it is intermittently having issues connecting to port 15002 on the client.  This client was just fine under the 2.5.9 torque production environment that we have but seems to be intermittently having issues in the 2.5.13 test environment that is setup with gpu support.<br>




</div><div><br></div></div></div></div></div></div></div></blockquote></div><div>[snip] </div><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">



<div dir="ltr"><div><div><div><div><div><div></div></div></div><br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a> state from QUEUED-QUEUED to RUNNING-PRERUN (4-40)<br>11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a>;forking in send_job<br>




<b>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>




<b>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>




11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a>;entering post_sendmom<br></div></div></div></div></blockquote><div><br></div></div><div>You might be running up against limits on the number of file descriptors the pbs_server process or the OS is allowed to have open. You can use tools such as lsof to see how many files the pbs_server has open:</div>



<div>$ sudo lsof -c pbs_server</div><div><br></div><div>It&#39;s also possible that you&#39;re running out of ports to bind to. Running lsof/netstat and looking to see if there are massive numbers of connections/files open will reveal this.</div>


<div><br></div></div>Although you say there is no firewall configured on the servers, do you know if there a firewall between the pbs_server and the nodes?</div><div class="gmail_extra"><br>
</div><div class="gmail_extra">You can do a simple TCP connect to the mom to see if it&#39;s listening:</div><div class="gmail_extra">$ nmap -p 15002 <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a> -oG -<div class="gmail_extra">



# Nmap 6.40 scan initiated Fri Nov 15 11:52:17 2013 as: nmap -p 15002 -oG - <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a></div><div class="gmail_extra">Host: 192.168.147.1 (<a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a>)<span style="white-space:pre-wrap">        </span>Status: Up</div>



<div class="gmail_extra">Host: 192.168.147.1 (<a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a>)<span style="white-space:pre-wrap">        </span>Ports: 15002/open/tcp//unknown///</div><div class="gmail_extra">


# Nmap done at Fri Nov 15 11:52:17 2013 -- 1 IP address (1 host up) scanned in 0.04 seconds</div>
<div>$ <br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Or continuously with hping3 (I&#39;m sure there are other tools that will do this as well):</div><div class="gmail_extra"><div class="gmail_extra">



$ sudo hping3 -S -p 15002 <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a></div><div class="gmail_extra">HPING <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a> (em1 192.168.147.1): S set, 40 headers + 0 data bytes</div>



<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=0 win=14600 rtt=1.5 ms</div><div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=1 win=14600 rtt=0.8 ms</div>



<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=2 win=14600 rtt=0.6 ms</div><div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=3 win=14600 rtt=1.0 ms</div>



<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=4 win=14600 rtt=1.2 ms</div><div><br></div><div>(SA means it&#39;s open)</div><div><br></div></div><div>HTH</div><span><font color="#888888">-- <br>

Jonathan Barber &lt;<a href="mailto:jonathan.barber@gmail.com" target="_blank">jonathan.barber@gmail.com</a>&gt;
</font></span></div></div>
<br></div></div><div class="im">_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></div></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Ken Nielson<br>+1 801.717.3700 office +1 801.717.3738 fax<br>1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br>
<br>
</div>