<div dir="ltr">It seems to be intermittent and when the job does not run then I don&#39;t see anything in the mom logs.  The other thing to point out is that this compute node is part of another torque server but has been set to offline/down mode in the production instance.  Would that have any impact of this?<div>
<br></div><div>Also, I don&#39;t&#39; have the momctl command on the compute node it only exists on the server.  How can I check communication between the node and server from a torque perspective?  It seems to be intermittent.</div>
<div><br></div><div>Thanks,</div><div>-J</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 13, 2013 at 4:45 PM, Matt Britt <span dir="ltr">&lt;<a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I would look at the pbs_mom log at the corresponding time the job was being run (<span style="font-family:arial,sans-serif;font-size:13px">16:31:01)</span> as well as run momctl -d1 (or higher) on the compute host to make sure you have two-way communication.<div>

<br></div><div> - Matt</div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr"><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">--------------------------------------------</font></div>

<div style="font-family:arial;font-size:small"><font face="arial, sans-serif">Matthew Britt</font></div><div style="font-family:arial;font-size:small"><font face="arial, sans-serif">CAEN HPC Group - College of Engineering</font></div>

<div style="font-family:arial;font-size:small"><font face="arial, sans-serif"><a href="mailto:msbritt@umich.edu" target="_blank">msbritt@umich.edu</a></font></div><div style="font-family:arial;font-size:small"> </div></div>

</div>
<br><br><div class="gmail_quote"><div><div class="h5">On Wed, Nov 13, 2013 at 7:37 PM, Jagga Soorma <span dir="ltr">&lt;<a href="mailto:jagga13@gmail.com" target="_blank">jagga13@gmail.com</a>&gt;</span> wrote:<br></div>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
<div dir="ltr">Hey Guys,<div><br></div><div>I am having some issues with a test torque deployment which only has 1 server and 1 compute node.  I am trying to submit a interactive job and the very first time it works but every subsequent time I get a Reject reply code=15043 and the job just stays queued and sometimes will end up running by giving me a prompt.  I don&#39;t see any network issues and from the OS communication between the server and compute node seem fine.  What am I missing here and what can I check to troubleshoot this further?</div>


<div><br></div><div>--</div><div>server_logs:</div><div>..</div><div><div>11/13/2013 16:30:35;0100;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>

<div>
11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>


<div>11/13/2013 16:30:35;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>


<div>11/13/2013 16:30:35;0008;PBS_Server;Job;<a href="http://7221.server1.xxx.com" target="_blank">7221.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>

<div>11/13/2013 16:30:36;0004;PBS_Server;Svr;WARNING;ALERT: unable to contact node node1</div>
<div>11/13/2013 16:30:36;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div><div>11/13/2013 16:31:01;0100;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;enqueuing into batch, state 1 hop 1</div>


<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Queued at request of <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, owner = <a href="mailto:user1@server1.xxx.com" target="_blank">user1@server1.xxx.com</a>, job name = STDIN, queue = batch</div>


<div>11/13/2013 16:31:01;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command new</div><div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>


<div>11/13/2013 16:31:01;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Run at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>

<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;unable to run job, MOM rejected/rc=2</div>
<div><b>11/13/2013 16:31:03;0080;PBS_Server;Req;req_reject;Reject reply code=15043(Execution server rejected request MSG=cannot send job to mom, state=PRERUN), aux=0, type=RunJob, from <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></b></div>


<div>11/13/2013 16:31:03;0008;PBS_Server;Job;<a href="http://7222.server1.xxx.com" target="_blank">7222.server1.xxx.com</a>;Job Modified at request of <a href="mailto:Scheduler@server1.xxx.com" target="_blank">Scheduler@server1.xxx.com</a></div>

<div>11/13/2013 16:31:03;0040;PBS_Server;Svr;<a href="http://server1.xxx.com" target="_blank">server1.xxx.com</a>;Scheduler was sent the command recyc</div>
<div>..</div></div><div><br></div><div><br></div><div>Thanks,</div><div>-J</div></div>
<br></div></div>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br></div>