<div dir="ltr">I would look at the logs of the node that the job was sent to in order to discover why it didn&#39;t work.</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Aug 9, 2013 at 9:07 PM, Joćo Rodrigues <span dir="ltr">&lt;<a href="mailto:anaryin@gmail.com" target="_blank">anaryin@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Dear all,<div><br></div><div>I just installed torque 4.2.4 from scratch on a CentOS cluster (ROCKS) I&#39;m working on. I followed the instructions in the <a href="http://docs.adaptivecomputing.com/torque/help.htm" target="_blank">manual</a>.</div>


<div><br></div><div>The output of running &#39;pbsnodes -a&#39; is the following:</div><div><br></div><div><div><font face="courier new, monospace" size="1">compute-0-14.local</font></div><div><font face="courier new, monospace" size="1">     state = free</font></div>


<div><font face="courier new, monospace" size="1">     np = 24</font></div><div><font face="courier new, monospace" size="1">     ntype = cluster</font></div><div><font face="courier new, monospace" size="1">     status = rectime=1376103766,varattr=,jobs=,state=free,netload=44353668,gres=,loadave=0.00,ncpus=24,physmem=37140756kb,availmem=37454964kb,totmem=38164748kb,idletime=86646,nusers=0,nsessions=0,uname=Linux compute-0-14.local 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36 EDT 2012 x86_64,opsys=linux</font></div>


<div><font face="courier new, monospace" size="1">     mom_service_port = 15002</font></div><div><font face="courier new, monospace" size="1">     mom_manager_port = 15003</font></div></div><div><br></div><div>When I try to submit a job it shows up in &#39;qstat&#39; but as Queued. Issuing &#39;qrun&#39; produces the following error message:</div>


<div><br></div><div><font face="courier new, monospace">qrun: Execution server rejected request MSG=cannot send job to mom, state=TRNOUT 3.&lt;<a href="http://redacted.host.name" target="_blank">redacted.host.name</a>&gt;</font><br>
</div>

<div><br></div><div>Issuing &#39;tracejob&#39; to see what&#39;s up gives this in return:</div><div><br></div><div><div><font face="courier new, monospace" size="1">08/09/2013 17:50:26  S    enqueuing into batch, state 1 hop 1</font></div>


<div><font face="courier new, monospace" size="1">08/09/2013 17:50:26  A    queue=batch</font></div><div><font face="courier new, monospace" size="1">08/09/2013 17:50:39  S    Job Run at request of root@&lt;<a href="http://redacted.host.name" target="_blank">redacted.host.name</a>&gt;</font></div>


<div><font face="courier new, monospace" size="1">08/09/2013 17:50:39  S    send of job to compute-0-4.local failed error = 15010</font></div><div><font face="courier new, monospace" size="1">08/09/2013 17:50:39  S    unable to run job, MOM rejected/rc=-1</font></div>


<div><font face="courier new, monospace" size="1">08/09/2013 17:50:39  S    unable to run job, send to MOM &#39;<a href="tel:3232238330" value="+13232238330" target="_blank">3232238330</a>&#39; failed</font></div></div><div>
<br></div><div>Can anyone offer a hint of what might be going on? Google doesn&#39;t know about that TRNOUT state nor about something similar.</div>

<div><br></div><div>Cheers,</div><div><br></div><div>Joćo</div><div><br></div><div>Disclaimer: I&#39;m not a sysadmin nor IT guy, but I can read.<br></div></div>
<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Senior Software Engineer</div><div>Adaptive Computing</div>
</div>