<div dir="ltr"><div><div><div><div><div><div>I changed the log level and here is what I see on the server:<br><br></div><div>Looks like it is intermittently having issues connecting to port 15002 on the client.  This client was just fine under the 2.5.9 torque production environment that we have but seems to be intermittently having issues in the 2.5.13 test environment that is setup with gpu support.<br>
</div><div><br></div>--<br></div>server<br></div>..snip..<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command QueueJob from user<br>11/14/2013 19:15:20;0100;PBS_Server;Req;;Type QueueJob request received from <a href="mailto:user@server1.xxx.com">user@server1.xxx.com</a>, sock=13<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request QueueJob on sd=13<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type QueueJob on socket 13<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command ReadyToCommit from user<br>
11/14/2013 19:15:20;0100;PBS_Server;Req;;Type ReadyToCommit request received from <a href="mailto:user@server1.xxx.com">user@server1.xxx.com</a>, sock=13<br>11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request ReadyToCommit on sd=13<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;ready to commit job<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type ReadyToCommit on socket 13<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;ready to commit job completed<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command Commit from user<br>
11/14/2013 19:15:20;0100;PBS_Server;Req;;Type Commit request received from <a href="mailto:user@server1.xxx.com">user@server1.xxx.com</a>, sock=13<br>11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request Commit on sd=13<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;committing job<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> state from TRANSIT-TRANSICM to QUEUED-QUEUED (1-10)<br>
11/14/2013 19:15:20;0100;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type Commit on socket 13<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;Reply sent for request type Commit on socket 13<br>11/14/2013 19:15:20;0040;PBS_Server;Svr;<a href="http://server1.xxx.com">server1.xxx.com</a>;Scheduler was sent the command new<br>
11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command StatusServer from Scheduler<br>11/14/2013 19:15:20;0100;PBS_Server;Req;;Type StatusServer request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request StatusServer on sd=14<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusServer on socket 14<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command StatusNode from Scheduler<br>
11/14/2013 19:15:20;0100;PBS_Server;Req;;Type StatusNode request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request StatusNode on sd=14<br>
11/14/2013 19:15:20;0040;PBS_Server;Req;req_stat_node;entered<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusNode on socket 14<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command Disconnect from user<br>
11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command StatusQueue from Scheduler<br>11/14/2013 19:15:20;0100;PBS_Server;Req;;Type StatusQueue request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request StatusQueue on sd=14<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type StatusQueue on socket 14<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command SelStat from Scheduler<br>
11/14/2013 19:15:20;0100;PBS_Server;Req;;Type SelStat request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request SelStat on sd=14<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type SelStat on socket 14<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command ResourceQuery from Scheduler<br>11/14/2013 19:15:20;0100;PBS_Server;Req;;Type ResourceQuery request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request ResourceQuery on sd=14<br>11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;entered spec=1<br>11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;job allocation debug: 1 requested, 16 svr_clnodes, 1 svr_totnodes<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus available on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::search, search: starting eval gpus on node node1 need 0(0) mode -1 has 3 free 3 skip 0 depth 1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus available on node node1<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::search, search: successful gpus on node node1 need 0(0) mode -1 has 3 free 3 skip 0 depth 1<br>
11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;job allocation debug(2): 1 requested, 1 svr_numnodes<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::node_spec, starting eval gpus on node node1 need 0 free 3<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::node_spec, adequate virtual nodes and gpus available - node is ok<br>
11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;job allocation debug(3): returning 1 requested<br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type ResourceQuery on socket 14<br>11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command ModifyJob from Scheduler<br>
11/14/2013 19:15:20;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request ModifyJob on sd=14<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;attr comment modified<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> state from QUEUED-QUEUED to QUEUED-QUEUED (1-10)<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a><br>11/14/2013 19:15:20;0008;PBS_Server;Job;reply_send;Reply sent for request type ModifyJob on socket 14<br>
11/14/2013 19:15:20;0080;PBS_Server;Req;dis_request_read;decoding command RunJob from Scheduler<br>11/14/2013 19:15:20;0100;PBS_Server;Req;;Type RunJob request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>
11/14/2013 19:15:20;0008;PBS_Server;Job;dispatch_request;dispatching request RunJob on sd=14<br>11/14/2013 19:15:20;0040;PBS_Server;Req;set_nodes;allocating nodes for job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> with node expression &#39;1&#39;<br>
11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;entered spec=1<br>11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;job allocation debug: 1 requested, 16 svr_clnodes, 1 svr_totnodes<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus available on node node1<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::search, search: starting eval gpus on node node1 need 0(0) mode -1 has 3 free 3 skip 0 depth 1<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus available on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::search, search: successful gpus on node node1 need 0(0) mode -1 has 3 free 3 skip 0 depth 1<br>11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;job allocation debug(2): 1 requested, 1 svr_numnodes<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::node_spec, starting eval gpus on node node1 need 0 free 3<br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::gpu_count, Counted 3 gpus free on node node1<br>11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;LOG_DEBUG::node_spec, adequate virtual nodes and gpus available - node is ok<br>
11/14/2013 19:15:20;0040;PBS_Server;Req;node_spec;job allocation debug(3): returning 1 requested<br>11/14/2013 19:15:20;0040;PBS_Server;Req;add_job_to_node;allocated node node1/1 to job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> (nsnfree=15)<br>
11/14/2013 19:15:20;0040;PBS_Server;Req;set_nodes;job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> allocated 1 nodes (nodelist=node1/1)<br>11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a><br>
11/14/2013 19:15:20;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> state from QUEUED-QUEUED to RUNNING-PRERUN (4-40)<br>11/14/2013 19:15:20;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;forking in send_job<br>
<b>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:20;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>
<b>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>11/14/2013 19:15:22;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection () - time=0 seconds</b><br>
11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;entering post_sendmom<br>11/14/2013 19:15:22;0002;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;child reported failure for job after 2 seconds (dest=node1), rc=2<br>
11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;unable to run job, MOM rejected/rc=2<br>11/14/2013 19:15:22;0040;PBS_Server;Req;free_nodes;freeing nodes for job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a><br>
11/14/2013 19:15:22;0040;PBS_Server;Req;free_nodes;freeing node node1/1 from job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> (nsnfree=14)<br>11/14/2013 19:15:22;0040;PBS_Server;Req;free_nodes;increased sub-node free count to 15 of 16<br>
11/14/2013 19:15:22;0080;PBS_Server;Req;req_reject;Reject reply code=15043(Execution server rejected request REJHOST=node1 MSG=cannot send job to node1, state=PRERUN), aux=0, type=RunJob, from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a><br>
11/14/2013 19:15:22;0008;PBS_Server;Job;reply_send;Reply sent for request type RunJob on socket 14<br>11/14/2013 19:15:22;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> state from RUNNING-PRERUN to QUEUED-QUEUED (1-10)<br>
11/14/2013 19:15:22;0080;PBS_Server;Req;dis_request_read;decoding command ModifyJob from Scheduler<br>11/14/2013 19:15:22;0100;PBS_Server;Req;;Type ModifyJob request received from <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a>, sock=14<br>
11/14/2013 19:15:22;0008;PBS_Server;Job;dispatch_request;dispatching request ModifyJob on sd=14<br>11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;attr comment modified<br>
11/14/2013 19:15:22;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> state from QUEUED-QUEUED to QUEUED-QUEUED (1-10)<br>11/14/2013 19:15:22;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com">Scheduler@server1.xxx.com</a><br>
11/14/2013 19:15:22;0008;PBS_Server;Job;reply_send;Reply sent for request type ModifyJob on socket 14<br>11/14/2013 19:15:22;0040;PBS_Server;Svr;<a href="http://server1.xxx.com">server1.xxx.com</a>;Scheduler was sent the command recyc<br>
11/14/2013 19:15:27;0080;PBS_Server;Req;dis_request_read;decoding command DeleteJob from user<br>11/14/2013 19:15:27;0100;PBS_Server;Req;;Type DeleteJob request received from <a href="mailto:user@server1.xxx.com">user@server1.xxx.com</a>, sock=13<br>
11/14/2013 19:15:27;0008;PBS_Server;Job;dispatch_request;dispatching request DeleteJob on sd=13<br>11/14/2013 19:15:27;0008;PBS_Server;Job;<a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a>;Job deleted at request of <a href="mailto:user@server1.xxx.com">user@server1.xxx.com</a><br>
11/14/2013 19:15:27;0001;PBS_Server;Svr;PBS_Server;svr_setjobstate: setting job <a href="http://7352.server1.xxx.com">7352.server1.xxx.com</a> state from QUEUED-QUEUED to COMPLETE-COMPLETE (6-59)<br>11/14/2013 19:15:27;0008;PBS_Server;Job;reply_send;Reply sent for request type DeleteJob on socket 13<br>
11/14/2013 19:15:27;0080;PBS_Server;Req;dis_request_read;decoding command Disconnect from user<br><br></div>..snip..<br>--<br><br></div>Thanks for your time and help!<br><br></div><div>Much appreciated,<br></div>-J<br></div>
<div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Nov 14, 2013 at 6:40 PM, David Beer <span dir="ltr">&lt;<a href="mailto:dbeer@adaptivecomputing.com" target="_blank">dbeer@adaptivecomputing.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">From the momctl output that you showed your mom&#39;s log level is at 0. I would change this to 10 and then look into what happens when the job is submitted.<br>
</div><div class="gmail_extra"><div><div class="h5"><br><br><div class="gmail_quote">
On Thu, Nov 14, 2013 at 5:48 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr"><div>Anyone?  Any ideas?  I am pulling my hair out on this one and can&#39;t seem to find any issues with the server or client.  Any help would be greatly appreciated!<br><br>Thanks,<br></div>-J<br></div><div>

<div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 8:11 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


<div dir="ltr"><div><div><div>I have increased the log level on pbs_server and now I am seeing the following messages:<br><br>--<br><br><b>11/13/2013 20:09:08;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>



11/13/2013 20:09:08;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection (<br>11/13/2013 20:09:09;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>



11/13/2013 20:09:09;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection (<br>11/13/2013 20:09:11;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>



11/13/2013 20:09:11;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection (</b><br>11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;rpp request received on stream 0<br>11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;inter-server request received<br>



11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream 0 (version 1)<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream <a href="http://72.34.135.64:15003" target="_blank">72.34.135.64:15003</a><br>



11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message STATUS (4) received from mom on host node1 (<a href="http://72.34.135.64:15003" target="_blank">72.34.135.64:15003</a>) (stream 0)<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;IS_STATUS received from node1<br>



11/13/2013 20:09:15;0040;PBS_Server;Req;is_stat_get;received status from node node1<br>11/13/2013 20:09:15;0040;PBS_Server;Req;update_node_state;adjusting state for node node1 - state=0, newstate=0<br>11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;rpp request received on stream 0<br>



11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;inter-server request received<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream 0 (version 1)<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream <a href="http://72.34.135.64:15003" target="_blank">72.34.135.64:15003</a><br>



11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message GPU_STATUS (5) received from mom on host node1 (<a href="http://72.34.135.64:15003" target="_blank">72.34.135.64:15003</a>) (stream 0)<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;IS_GPU_STATUS received from node1<br>



11/13/2013 20:09:15;0040;PBS_Server;Req;is_gpustat_get;received gpu status from node node1<br>--<br><br></div>On the client I do see that it is listening on port 15002:<br><br># netstat -an | grep 15002<br>tcp        0      0 <a href="http://0.0.0.0:15002" target="_blank">0.0.0.0:15002</a>           0.0.0.0:*               LISTEN      <br>



<br></div>There is no firewall configured on these servers.<br><br>What am I missing?<br><br>Thanks,<br></div>-J<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:34 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>



<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>Also, if I run &quot;momctl -h node1 -d 2&quot; I get a valid output but if I add the port I get the following error:<br>



<br>momctl -p 15002 -h node1 -d 2<br>ERROR:    query[0] &#39;diag2&#39; failed on node1 (errno=0-Success: 5-Input/output error)<br>
<br></div>Any help would be appreciated!<br><br>Thanks,<br></div>-J<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:30 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>




<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>I am also seeing the following messages on the client (mom):<br><br>pbs_mom;Svr;pbs_mom;LOG_ERROR::Cannot assign requested address (99) in post_epilogue, <br>




pbs_mom;Svr;pbs_mom;LOG_ERROR::Cannot assign requested address (99) in post_epilogue, <br>
<br></div>Could this be related?<br><br></div>Thanks,<br></div>-J<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:09 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>





<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">The momctl command output looks normal:<br><br>Host: node1/<a href="http://node1.gene.com" target="_blank">node1.gene.com</a>   Version: 2.5.13   PID: 20707<br>





Server[0]: server1 (<a href="http://10.36.244.247:15001" target="_blank">10.36.244.247:15001</a>)<br>
  Init Msgs Received:     0 hellos/1 cluster-addrs<br>  Init Msgs Sent:         1 hellos<br>  Last Msg From Server:   70 seconds (StatusJob)<br>  Last Msg To Server:     14 seconds<br>HomeDirectory:          /var/spool/torque/mom_priv<br>






stdout/stderr spool directory: &#39;/var/spool/torque/spool/&#39; (14933077 blocks available)<br>MOM active:             960 seconds<br>Check Poll Time:        45 seconds<br>Server Update Interval: 45 seconds<br>LogLevel:               0 (use SIGUSR1/SIGUSR2 to adjust)<br>






Communication Model:    RPP<br>MemLocked:              TRUE  (mlock)<br>TCP Timeout:            20 seconds<br>Prolog:                 /var/spool/torque/mom_priv/prologue (disabled)<br>Alarm Time:             0 of 10 seconds<br>






Trusted Client List:    10.36.244.247,72.34.135.64,127.0.0.1<br>Copy Command:           /usr/bin/scp -rpB<br>job[<a href="http://7264.server1.gene.com" target="_blank">7264.server1.gene.com</a>]  state=RUNNING  sidlist=19320<br>





job[<a href="http://7265.server1.gene.com" target="_blank">7265.server1.gene.com</a>]  state=RUNNING  sidlist=19795<br>
job[<a href="http://7266.server1.gene.com" target="_blank">7266.server1.gene.com</a>]  state=RUNNING  sidlist=20117<br>Assigned CPU Count:     3<br><br>diagnostics complete<br><br><br><br><br></div><div><div>
<div class="gmail_extra"><br><br><div class="gmail_quote">
On Wed, Nov 13, 2013 at 4:52 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">






<div dir="ltr">It seems to be intermittent and when the job does not run then I don&#39;t see anything in the mom logs.  The other thing to point out is that this compute node is part of another torque server but has been set to offline/down mode in the production instance.  Would that have any impact of this?<div>







<br></div><div>Also, I don&#39;t&#39; have the momctl command on the compute node it only exists on the server.  How can I check communication between the node and server from a torque perspective?  It seems to be intermittent.</div>







<div><br></div><div>Thanks,</div><div>-J</div></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 4:45 PM, Matt Britt <span dir="ltr">&lt;<a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a>&gt;</span> wrote:<br>







<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I would look at the pbs_mom log at the corresponding time the job was being run (<span style="font-family:arial,sans-serif;font-size:13px">16:31:01)</span> as well as run momctl -d1 (or higher) on the compute host to make sure you have two-way communication.<div>








<br></div><div> - Matt</div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr"><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">--------------------------------------------</font></div>








<div style="font-family:arial;font-size:small"><font face="arial, sans-serif">Matthew Britt</font></div><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">CAEN HPC Group - College of Engineering</font></div>








<div style="font-family:arial;font-size:small"><font face="arial, sans-serif"><a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a></font></div><div style="font-family:arial;font-size:small"> </div></div>








</div>
<br><br><div class="gmail_quote"><div><div>On Wed, Nov 13, 2013 at 7:37 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br></div>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>
<div dir="ltr">Hey Guys,<div><br></div><div>I am having some issues with a test torque deployment which only has 1 server and 1 compute node.  I am trying to submit a interactive job and the very first time it works but every subsequent time I get a Reject reply code=15043 and the job just stays queued and sometimes will end up running by giving me a prompt.  I don&#39;t see any network issues and from the OS communication between the server and compute node seem fine.  What am I missing here and what can I check to troubleshoot this further?</div>









<div><br></div><div>--</div><div>server_logs:</div><div>..</div><div><div>11/13/2013 16:30:35;0100;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>








<div>
11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>









<div>11/13/2013 16:30:35;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>









<div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>








<div>11/13/2013 16:30:36;0004;PBS_Server;Svr;WARNING;ALERT: unable to contact node node1</div>
<div>11/13/2013 16:30:36;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div><div>11/13/2013 16:31:01;0100;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>









<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>









<div>11/13/2013 16:31:01;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>









<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>








<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;unable to run job, MOM rejected/rc=2</div>
<div><b>11/13/2013 16:31:03;0080;PBS_Server;Req;req_reject;Reject reply code=15043(Execution server rejected request MSG=cannot send job to mom, state=PRERUN), aux=0, type=RunJob, from <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></b></div>









<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>








<div>11/13/2013 16:31:03;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div>
<div>..</div></div><div><br></div><div><br></div><div>Thanks,</div><div>-J</div></div>
<br></div></div>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><br></div></div><span class="HOEnZb"><font color="#888888">-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</font></span></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>