Gareth,<br><br>The TK is a left over task file. I would delete it.<br><br>Ken<br><br><div class="gmail_quote">On Mon, Nov 26, 2012 at 4:20 PM,  <span dir="ltr">&lt;<a href="mailto:Gareth.Williams@csiro.au" target="_blank">Gareth.Williams@csiro.au</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div link="blue" vlink="purple" lang="EN-AU"><div><p>Hi All,<u></u><u></u></p><p><u></u><u></u></p><p>In out torque instance on SGI UV: pbs_version = 3.0.4-snap.201201051014<u></u><u></u></p>
<p>We recently noticed this:<u></u><u></u></p><p><u></u><u></u></p><p>&gt; ls -al /var/spool/torque/mom_priv/jobs/.TK<u></u><u></u></p><p>-rw------- 1 root root 680505410608 Nov 20 20:06 /var/spool/torque/mom_priv/jobs/.TK<u></u><u></u></p>
<p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">The file must be really sparse as it takes up very little du.<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">The pbs_mom was restarted an hour or so before the timestamp on this file and there are a few errors logged like:<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:00;0001; pbs_mom;Job;job_nodes;job: <a href="http://30066.cherax.hpsc.csiro.au" target="_blank">30066.cherax.hpsc.csiro.au</a> numnodes=1 numvnod=1<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:00;0001; pbs_mom;Svr;pbs_mom;LOG_ERROR::No such file or directory (2) in task_recov, open of task file<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:00;0080; pbs_mom;Job;init_abort_jobs;task recovery failed for job <a href="http://30066.cherax.hpsc.csiro.au" target="_blank">30066.cherax.hpsc.csiro.au</a>, rc=-1<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:00;0080; pbs_mom;Job;init_abort_jobs;attempting to recover job <a href="http://30066.cherax.hpsc.csiro.au" target="_blank">30066.cherax.hpsc.csiro.au</a> in state RUNNING<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:03;0001; pbs_mom;Svr;pbs_mom;LOG_ERROR::No such file or directory (2) in open_std_file, cannot open/create stdout/stderr file &#39;/var/spool/torque/spool<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">/<a href="http://30066.cherax.hpsc.csiro.au.ER" target="_blank">30066.cherax.hpsc.csiro.au.ER</a>&#39; (mode: 2001, keeping: FALSE)<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:03;0001; pbs_mom;Svr;pbs_mom;LOG_ERROR::Inappropriate ioctl for device (25) in message_job, cannot open stderr file for job &#39;30066.cherax.hpsc.csiro.a<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">u&#39; (msg: &#39;=&gt;&gt; PBS: job killed: walltime 8404959 exceeded limit 16200<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:03;0008; pbs_mom;Job;kill_job;examine_all_polled_jobs: sending signal 15, &quot;TERM&quot; to job <a href="http://30066.cherax.hpsc.csiro.au" target="_blank">30066.cherax.hpsc.csiro.au</a>, reason: job is over-limit-0<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">11/20/2012 19:12:03;0008; pbs_mom;Job;<a href="http://29928.cherax.hpsc.csiro.au" target="_blank">29928.cherax.hpsc.csiro.au</a>;walltime 8478981 exceeded limit 252000<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">11/20/2012 19:16:56;0001; pbs_mom;Svr;pbs_mom;LOG_ERROR::Success (0) in req_quejob, cannot queue new job, job exists and is running<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">(this last one is happening quite a bit  maybe related to slow start of jobs)<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal">
<span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">Any ideas?<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">Is the .TK file from some corruption?  I think we will just delete it.<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US">Gareth<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u><u></u></span></p></div></div><br>_______________________________________________<br>

torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br>