<div dir="ltr"><div><div>Yea, I check and networking looks clean.  There was ipv6 enabled and infiniband interfaces setup on the client but I disabled/downed all those to make sure I had a simple setup with just one interface and route.  This client was working just fine in our 2.5.9 environment and started having issues in this 2.5.13 test environment which has been setup with gpu support.<br>
<br></div>No dup ip&#39;s and mtu&#39;s isn&#39;t a issue.  Could this be a bug in the torque version I am using?  Any configuration that I should be checking or should I concentrate on the node itself?<br><br>Thanks,<br>
</div>-J<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Nov 14, 2013 at 6:42 PM, Stephen Cousins <span dir="ltr">&lt;<a href="mailto:steve.cousins@maine.edu" target="_blank">steve.cousins@maine.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-family:courier new,monospace">I&#39;d probably check to make sure that networking was all clean. Any errors on the switches? Multiple routes? Duplex mismatch? Duplicate IP&#39;s? Maybe packets are getting lost sometimes? I&#39;d start with the basics. Just a thought.</div>

<div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Nov 14, 2013 at 7:48 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr"><div>Anyone?  Any ideas?  I am pulling my hair out on this one and can&#39;t seem to find any issues with the server or client.  Any help would be greatly appreciated!<br><br>Thanks,<br></div>-J<br></div><div class="gmail_extra">


<br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 8:11 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


<div dir="ltr"><div><div><div>I have increased the log level on pbs_server and now I am seeing the following messages:<br><br>--<br><br><b>11/13/2013 20:09:08;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>



11/13/2013 20:09:08;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection (<br>11/13/2013 20:09:09;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>



11/13/2013 20:09:09;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection (<br>11/13/2013 20:09:11;0004;PBS_Server;Svr;svr_connect;attempting connect to host 72.34.135.64 port 15002<br>



11/13/2013 20:09:11;0004;PBS_Server;Svr;svr_connect;cannot connect to host port 15002 - cannot establish connection (</b><br>11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;rpp request received on stream 0<br>11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;inter-server request received<br>



11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream 0 (version 1)<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream <a href="http://72.34.135.64:15003" target="_blank"><font color="red"><b>MailScanner warning: numerical links are often malicious:</b></font> 72.34.135.64:15003</a><br>



11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message STATUS (4) received from mom on host node1 (<a href="http://72.34.135.64:15003" target="_blank"><font color="red"><b>MailScanner warning: numerical links are often malicious:</b></font> 72.34.135.64:15003</a>) (stream 0)<br>

11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;IS_STATUS received from node1<br>

11/13/2013 20:09:15;0040;PBS_Server;Req;is_stat_get;received status from node node1<br>11/13/2013 20:09:15;0040;PBS_Server;Req;update_node_state;adjusting state for node node1 - state=0, newstate=0<br>11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;rpp request received on stream 0<br>



11/13/2013 20:09:15;0040;PBS_Server;Req;do_rpp;inter-server request received<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream 0 (version 1)<br>11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message received from stream <a href="http://72.34.135.64:15003" target="_blank"><font color="red"><b>MailScanner warning: numerical links are often malicious:</b></font> 72.34.135.64:15003</a><br>



11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;message GPU_STATUS (5) received from mom on host node1 (<a href="http://72.34.135.64:15003" target="_blank"><font color="red"><b>MailScanner warning: numerical links are often malicious:</b></font> 72.34.135.64:15003</a>) (stream 0)<br>

11/13/2013 20:09:15;0004;PBS_Server;Svr;is_request;IS_GPU_STATUS received from node1<br>

11/13/2013 20:09:15;0040;PBS_Server;Req;is_gpustat_get;received gpu status from node node1<br>--<br><br></div>On the client I do see that it is listening on port 15002:<br><br># netstat -an | grep 15002<br>tcp        0      0 <a href="http://0.0.0.0:15002" target="_blank"><font color="red"><b>MailScanner warning: numerical links are often malicious:</b></font> 0.0.0.0:15002</a>           0.0.0.0:*               LISTEN      <br>



<br></div>There is no firewall configured on these servers.<br><br>What am I missing?<br><br>Thanks,<br></div>-J<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:34 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>



<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>Also, if I run &quot;momctl -h node1 -d 2&quot; I get a valid output but if I add the port I get the following error:<br>



<br>momctl -p 15002 -h node1 -d 2<br>ERROR:    query[0] &#39;diag2&#39; failed on node1 (errno=0-Success: 5-Input/output error)<br>
<br></div>Any help would be appreciated!<br><br>Thanks,<br></div>-J<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:30 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>




<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>I am also seeing the following messages on the client (mom):<br><br>pbs_mom;Svr;pbs_mom;LOG_ERROR::Cannot assign requested address (99) in post_epilogue, <br>




pbs_mom;Svr;pbs_mom;LOG_ERROR::Cannot assign requested address (99) in post_epilogue, <br>
<br></div>Could this be related?<br><br></div>Thanks,<br></div>-J<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:09 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>





<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">The momctl command output looks normal:<br><br>Host: node1/<a href="http://node1.gene.com" target="_blank">node1.gene.com</a>   Version: 2.5.13   PID: 20707<br>





Server[0]: server1 (<a href="http://10.36.244.247:15001" target="_blank"><font color="red"><b>MailScanner warning: numerical links are often malicious:</b></font> 10.36.244.247:15001</a>)<br>
  Init Msgs Received:     0 hellos/1 cluster-addrs<br>  Init Msgs Sent:         1 hellos<br>  Last Msg From Server:   70 seconds (StatusJob)<br>  Last Msg To Server:     14 seconds<br>HomeDirectory:          /var/spool/torque/mom_priv<br>






stdout/stderr spool directory: &#39;/var/spool/torque/spool/&#39; (14933077 blocks available)<br>MOM active:             960 seconds<br>Check Poll Time:        45 seconds<br>Server Update Interval: 45 seconds<br>LogLevel:               0 (use SIGUSR1/SIGUSR2 to adjust)<br>






Communication Model:    RPP<br>MemLocked:              TRUE  (mlock)<br>TCP Timeout:            20 seconds<br>Prolog:                 /var/spool/torque/mom_priv/prologue (disabled)<br>Alarm Time:             0 of 10 seconds<br>






Trusted Client List:    10.36.244.247,72.34.135.64,127.0.0.1<br>Copy Command:           /usr/bin/scp -rpB<br>job[<a href="http://7264.server1.gene.com" target="_blank">7264.server1.gene.com</a>]  state=RUNNING  sidlist=19320<br>





job[<a href="http://7265.server1.gene.com" target="_blank">7265.server1.gene.com</a>]  state=RUNNING  sidlist=19795<br>
job[<a href="http://7266.server1.gene.com" target="_blank">7266.server1.gene.com</a>]  state=RUNNING  sidlist=20117<br>Assigned CPU Count:     3<br><br>diagnostics complete<br><br><br><br><br></div><div><div>
<div class="gmail_extra"><br><br><div class="gmail_quote">
On Wed, Nov 13, 2013 at 4:52 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">






<div dir="ltr">It seems to be intermittent and when the job does not run then I don&#39;t see anything in the mom logs.  The other thing to point out is that this compute node is part of another torque server but has been set to offline/down mode in the production instance.  Would that have any impact of this?<div>







<br></div><div>Also, I don&#39;t&#39; have the momctl command on the compute node it only exists on the server.  How can I check communication between the node and server from a torque perspective?  It seems to be intermittent.</div>







<div><br></div><div>Thanks,</div><div>-J</div></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 4:45 PM, Matt Britt <span dir="ltr">&lt;<a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a>&gt;</span> wrote:<br>







<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I would look at the pbs_mom log at the corresponding time the job was being run (<span style="font-family:arial,sans-serif;font-size:13px">16:31:01)</span> as well as run momctl -d1 (or higher) on the compute host to make sure you have two-way communication.<div>








<br></div><div> - Matt</div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr"><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">--------------------------------------------</font></div>








<div style="font-family:arial;font-size:small"><font face="arial, sans-serif">Matthew Britt</font></div><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">CAEN HPC Group - College of Engineering</font></div>








<div style="font-family:arial;font-size:small"><font face="arial, sans-serif"><a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a></font></div><div style="font-family:arial;font-size:small"> </div></div>








</div>
<br><br><div class="gmail_quote"><div><div>On Wed, Nov 13, 2013 at 7:37 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br></div>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>
<div dir="ltr">Hey Guys,<div><br></div><div>I am having some issues with a test torque deployment which only has 1 server and 1 compute node.  I am trying to submit a interactive job and the very first time it works but every subsequent time I get a Reject reply code=15043 and the job just stays queued and sometimes will end up running by giving me a prompt.  I don&#39;t see any network issues and from the OS communication between the server and compute node seem fine.  What am I missing here and what can I check to troubleshoot this further?</div>









<div><br></div><div>--</div><div>server_logs:</div><div>..</div><div><div>11/13/2013 16:30:35;0100;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>








<div>
11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>









<div>11/13/2013 16:30:35;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>









<div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>








<div>11/13/2013 16:30:36;0004;PBS_Server;Svr;WARNING;ALERT: unable to contact node node1</div>
<div>11/13/2013 16:30:36;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div><div>11/13/2013 16:31:01;0100;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>









<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>









<div>11/13/2013 16:31:01;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>









<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>








<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;unable to run job, MOM rejected/rc=2</div>
<div><b>11/13/2013 16:31:03;0080;PBS_Server;Req;req_reject;Reject reply code=15043(Execution server rejected request MSG=cannot send job to mom, state=PRERUN), aux=0, type=RunJob, from <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></b></div>









<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>








<div>11/13/2013 16:31:03;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div>
<div>..</div></div><div><br></div><div><br></div><div>Thanks,</div><div>-J</div></div>
<br></div></div>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div><br>
</div></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>