<br><div class="gmail_quote">On Wed, Aug 7, 2013 at 8:51 PM,  <span dir="ltr">&lt;<a href="mailto:Gareth.Williams@csiro.au" target="_blank">Gareth.Williams@csiro.au</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi all,<br>
<br>
We have a node that is reporting the existence of a couple of jobs with nonsense info:<br>
wil240@burnet-login:~&gt; pbsnodes -a n026<br>
n026<br>
     state = offline<br>
     np = 12<br>
     ntype = cluster<br>
     jobs = 2/, 5/��k<br>
     status = rectime=1375929927,varattr=,jobs=,state=free,size=140006956kb:144492840kb,netload=1245190319,gres=,loadave=0.00,ncpus=12,physmem=99195396kb,availmem=99048544kb,totmem=101299868kb,idletime=60100,nusers=0,nsessions=0,uname=Linux n026 2.6.32.59-0.7-default #1 SMP 2012-07-13 15:50:56 +0200 x86_64,opsys=sles11,arch=x86_64<br>

     mom_service_port = 15002<br>
     mom_manager_port = 15003<br>
     gpus = 0<br>
<br>
We&#39;ve not been able to tell where this is coming from. The pbs_mom and node have been restarted with no change.  There is nothing in /var/spool/torque/mom_prov/jobs<br>
<br>
When new jobs are sent to the node they fail so we&#39;ve taken it offline and teh problem is not currently critical.<br>
<br>
Does anyone know how to recover from this state?<br>
<br>
The cluster is running version: 3.0.6<br>
<br>
Regards,<br>
<br>
Gareth Williams Ph.D.<br>
Outreach and Science Data Manager<br>
eResearch IM&amp;T Advanced Scientific Computing<br>
CSIRO<br>
E Gareth.Williams@csiro.au T <a href="tel:%2B61%203%208601%203804" value="+61386013804">+61 3 8601 3804</a><br>
<a href="http://www.csiro.au" target="_blank">www.csiro.au</a> | <a href="https://wiki.csiro.au/display/ASC/" target="_blank">https://wiki.csiro.au/display/ASC/</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br>Gareth,<br><br>Since there are no jobs in the jobs directory it seems it would be safe to restart the mom. Have you tried that?<br clear="all"><br>-- <br>Ken Nielson<br>+1 801.717.3700 office +1 801.717.3738 fax<br>
1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br><br>