<div dir="ltr"><div><div><div>I am also seeing the following messages on the client (mom):<br><br>pbs_mom;Svr;pbs_mom;LOG_ERROR::Cannot assign requested address (99) in post_epilogue, <br>pbs_mom;Svr;pbs_mom;LOG_ERROR::Cannot assign requested address (99) in post_epilogue, <br>
<br></div>Could this be related?<br><br></div>Thanks,<br></div>-J<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 7:09 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">The momctl command output looks normal:<br><br>Host: node1/<a href="http://node1.gene.com" target="_blank">node1.gene.com</a>   Version: 2.5.13   PID: 20707<br>
Server[0]: server1 (<a href="http://10.36.244.247:15001" target="_blank">10.36.244.247:15001</a>)<br>
  Init Msgs Received:     0 hellos/1 cluster-addrs<br>  Init Msgs Sent:         1 hellos<br>  Last Msg From Server:   70 seconds (StatusJob)<br>  Last Msg To Server:     14 seconds<br>HomeDirectory:          /var/spool/torque/mom_priv<br>

stdout/stderr spool directory: &#39;/var/spool/torque/spool/&#39; (14933077 blocks available)<br>MOM active:             960 seconds<br>Check Poll Time:        45 seconds<br>Server Update Interval: 45 seconds<br>LogLevel:               0 (use SIGUSR1/SIGUSR2 to adjust)<br>

Communication Model:    RPP<br>MemLocked:              TRUE  (mlock)<br>TCP Timeout:            20 seconds<br>Prolog:                 /var/spool/torque/mom_priv/prologue (disabled)<br>Alarm Time:             0 of 10 seconds<br>

Trusted Client List:    10.36.244.247,72.34.135.64,127.0.0.1<br>Copy Command:           /usr/bin/scp -rpB<br>job[<a href="http://7264.server1.gene.com" target="_blank">7264.server1.gene.com</a>]  state=RUNNING  sidlist=19320<br>
job[<a href="http://7265.server1.gene.com" target="_blank">7265.server1.gene.com</a>]  state=RUNNING  sidlist=19795<br>
job[<a href="http://7266.server1.gene.com" target="_blank">7266.server1.gene.com</a>]  state=RUNNING  sidlist=20117<br>Assigned CPU Count:     3<br><br>diagnostics complete<br><br><br><br><br></div><div class="HOEnZb"><div class="h5">
<div class="gmail_extra"><br><br><div class="gmail_quote">
On Wed, Nov 13, 2013 at 4:52 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr">It seems to be intermittent and when the job does not run then I don&#39;t see anything in the mom logs.  The other thing to point out is that this compute node is part of another torque server but has been set to offline/down mode in the production instance.  Would that have any impact of this?<div>


<br></div><div>Also, I don&#39;t&#39; have the momctl command on the compute node it only exists on the server.  How can I check communication between the node and server from a torque perspective?  It seems to be intermittent.</div>


<div><br></div><div>Thanks,</div><div>-J</div></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 4:45 PM, Matt Britt <span dir="ltr">&lt;<a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a>&gt;</span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I would look at the pbs_mom log at the corresponding time the job was being run (<span style="font-family:arial,sans-serif;font-size:13px">16:31:01)</span> as well as run momctl -d1 (or higher) on the compute host to make sure you have two-way communication.<div>



<br></div><div> - Matt</div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr"><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">--------------------------------------------</font></div>



<div style="font-family:arial;font-size:small"><font face="arial, sans-serif">Matthew Britt</font></div><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">CAEN HPC Group - College of Engineering</font></div>



<div style="font-family:arial;font-size:small"><font face="arial, sans-serif"><a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a></font></div><div style="font-family:arial;font-size:small"> </div></div>



</div>
<br><br><div class="gmail_quote"><div><div>On Wed, Nov 13, 2013 at 7:37 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br></div>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>
<div dir="ltr">Hey Guys,<div><br></div><div>I am having some issues with a test torque deployment which only has 1 server and 1 compute node.  I am trying to submit a interactive job and the very first time it works but every subsequent time I get a Reject reply code=15043 and the job just stays queued and sometimes will end up running by giving me a prompt.  I don&#39;t see any network issues and from the OS communication between the server and compute node seem fine.  What am I missing here and what can I check to troubleshoot this further?</div>




<div><br></div><div>--</div><div>server_logs:</div><div>..</div><div><div>11/13/2013 16:30:35;0100;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>



<div>
11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>




<div>11/13/2013 16:30:35;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>




<div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>



<div>11/13/2013 16:30:36;0004;PBS_Server;Svr;WARNING;ALERT: unable to contact node node1</div>
<div>11/13/2013 16:30:36;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div><div>11/13/2013 16:31:01;0100;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>




<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>




<div>11/13/2013 16:31:01;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>




<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>



<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;unable to run job, MOM rejected/rc=2</div>
<div><b>11/13/2013 16:31:03;0080;PBS_Server;Req;req_reject;Reject reply code=15043(Execution server rejected request MSG=cannot send job to mom, state=PRERUN), aux=0, type=RunJob, from <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></b></div>




<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>



<div>11/13/2013 16:31:03;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div>
<div>..</div></div><div><br></div><div><br></div><div>Thanks,</div><div>-J</div></div>
<br></div></div>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>