<div dir="ltr">On 15 November 2013 03:18, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

<div dir="ltr"><div><div><div><div><div><div>I changed the log level and here is what I see on the server:<br><br></div><div>Looks like it is intermittently having issues connecting to port 15002 on the client.  This client was just fine under the 2.5.9 torque production environment that we have but seems to be intermittently having issues in the 2.5.13 test environment that is setup with gpu support.<br>


</div><div><br></div></div></div></div></div></div></div></blockquote><div>[snip] </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

<div dir="ltr"><div><div><div><div><div><div></div></div></div><br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a> state from QUEUED-QUEUED to RUNNING-PRERUN (4-40)<br>11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a>;forking in send_job<br>


<b>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>


<b>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>


11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com" target="_blank">7352.server1.xxx.com</a>;entering post_sendmom<br></div></div></div></div></blockquote><div><br></div><div>You might be running up against limits on the number of file descriptors the pbs_server process or the OS is allowed to have open. You can use tools such as lsof to see how many files the pbs_server has open:</div>

<div>$ sudo lsof -c pbs_server</div><div><br></div><div>It&#39;s also possible that you&#39;re running out of ports to bind to. Running lsof/netstat and looking to see if there are massive numbers of connections/files open will reveal this.</div>
<div><br></div></div>Although you say there is no firewall configured on the servers, do you know if there a firewall between the pbs_server and the nodes?</div><div class="gmail_extra"><br>
</div><div class="gmail_extra">You can do a simple TCP connect to the mom to see if it&#39;s listening:</div><div class="gmail_extra">$ nmap -p 15002 <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a> -oG -<div class="gmail_extra">

# Nmap 6.40 scan initiated Fri Nov 15 11:52:17 2013 as: nmap -p 15002 -oG - <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a></div><div class="gmail_extra">Host: 192.168.147.1 (<a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a>)<span style="white-space:pre-wrap">        </span>Status: Up</div>

<div class="gmail_extra">Host: 192.168.147.1 (<a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a>)<span style="white-space:pre-wrap">        </span>Ports: 15002/open/tcp//unknown///</div><div class="gmail_extra">
# Nmap done at Fri Nov 15 11:52:17 2013 -- 1 IP address (1 host up) scanned in 0.04 seconds</div>
<div>$ <br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Or continuously with hping3 (I&#39;m sure there are other tools that will do this as well):</div><div class="gmail_extra"><div class="gmail_extra">

$ sudo hping3 -S -p 15002 <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a></div><div class="gmail_extra">HPING <a href="http://ava01.grid.fe.up.pt" target="_blank">ava01.grid.fe.up.pt</a> (em1 192.168.147.1): S set, 40 headers + 0 data bytes</div>

<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=0 win=14600 rtt=1.5 ms</div><div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=1 win=14600 rtt=0.8 ms</div>

<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=2 win=14600 rtt=0.6 ms</div><div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=3 win=14600 rtt=1.0 ms</div>

<div class="gmail_extra">len=46 ip=192.168.147.1 ttl=61 DF id=0 sport=15002 flags=SA seq=4 win=14600 rtt=1.2 ms</div><div><br></div><div>(SA means it&#39;s open)</div><div><br></div></div><div>HTH</div>-- <br>Jonathan Barber &lt;<a href="mailto:jonathan.barber@gmail.com" target="_blank">jonathan.barber@gmail.com</a>&gt;
</div></div>