<div class="gmail_extra">Rhys,</div><div class="gmail_extra"><br></div><div class="gmail_extra">Once such place is in job_purge in src/server/job_func.c, if all of the jobs have been purged, the array is then also purged. If you search the code for the places that call array_delete, then you&#39;ll see all of the conditions under which it is called. Most of them are error conditions, but I figure you might want to check them all.</div>
<div class="gmail_extra"><br></div><div class="gmail_extra">David<br><br><div class="gmail_quote">On Tue, Apr 24, 2012 at 5:33 PM, Rhys Hill <span dir="ltr">&lt;<a href="mailto:rhys.hill@adelaide.edu.au" target="_blank">rhys.hill@adelaide.edu.au</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div bgcolor="#FFFFFF">
<div>Hi David,</div>
<div><br>
</div>
<div>I&#39;m not sure - the user who was having trouble hasn&#39;t yet tried again. I&#39;ll put a note in bugzilla either way when we&#39;ve tried again - I&#39;ve been more focussed on getting our normal jobs working!</div>

<div><br>
</div>
<div>With the changes I suggested in bugzilla, 4.0.1 is working well for me, except that most or all job arrays aren&#39;t being cleaned up. It seems like there must be some code somewhere that looks for all the jobs in an array to have finished, then cleans up
 the array structures themselves. I&#39;ve had a look, but cannot find where this should happen. Can you tell me where that is? If I can fix this issue, then I think 4.0.1 will be back to the same level of reliability as 2.5.9 for us (with more reliable cpusets
 as well!)<br>
<br>
Cheers, <span>Rhys</span>
<div><span><br>
</span></div>
<div><span>----<br>
</span>
<div><br>
</div>
<div>Senior Research Associate,</div><div class="im">
<div>Australian Centre for Visual Technologies</div>
</div></div>
</div><div><div class="h5">
<div><br>
On 25/04/2012, at 1:16 AM, &quot;David Beer&quot; &lt;<a href="mailto:dbeer@adaptivecomputing.com" target="_blank">dbeer@adaptivecomputing.com</a>&gt; wrote:<br>
<br>
</div>
<div></div>
<blockquote type="cite">
<div>
<div class="gmail_extra">Rhys,</div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra">Just to confirm - that patch fixed your problem? If so I will see that it gets checked in. We will look at these other bugzilla issues that you created. Thanks for taking the time to report them and in some cases offer solutions. We
 really appreciate the effort to help make TORQUE better.</div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra">David<br>
<br>
<div class="gmail_quote">On Tue, Apr 24, 2012 at 12:23 AM, Rhys Hill <span dir="ltr">
&lt;<a href="mailto:rhys.hill@adelaide.edu.au" target="_blank">rhys.hill@adelaide.edu.au</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi David,<br>
<br>
Thanks for that. I&#39;ve just found and fixed some other bugs which I&#39;ve added to<br>
bugzilla. The one issue that remains is odd. It seems that we have a situation<br>
where an array is stuck, when all of it&#39;s component jobs are finished.<br>
<br>
For instance, qstat -f says this:<br>
<br>
Job Id: 678[].<a href="http://moby.cs.adelaide.edu.au" target="_blank">moby.cs.adelaide.edu.au</a><br>
   Job_Name = YZ_Oxford_group<br>
   Job_Owner = <a href="mailto:yanzhichen@moby.cs.adelaide.edu.au" target="_blank">yanzhichen@moby.cs.adelaide.edu.au</a><br>
   job_state = Q<br>
   queue = batch<br>
   server = <a href="http://moby.cs.adelaide.edu.au" target="_blank">moby.cs.adelaide.edu.au</a><br>
   Checkpoint = u<br>
   ctime = Tue Apr 24 09:26:10 2012<br>
   Error_Path = moby.cs.adelaide.edu.au:/home/yanzhichen/moby/oxbuilding_voca<br>
       bulary/out.e.txt<br>
   Hold_Types = n<br>
   Join_Path = n<br>
   Keep_Files = n<br>
   Mail_Points = a<br>
   mtime = Tue Apr 24 09:26:10 2012<br>
   Output_Path = moby.cs.adelaide.edu.au:/home/yanzhichen/moby/oxbuilding_voc<br>
       abulary/out.o.txt<br>
   Priority = 0<br>
   qtime = Tue Apr 24 09:26:10 2012<br>
   Rerunable = True<br>
   Resource_List.mem = 5gb<br>
   Resource_List.nodect = 1<br>
   Resource_List.nodes = 1:ppn=1<br>
   Resource_List.pmem = 5gb<br>
   Resource_List.pvmem = 8gb<br>
   Resource_List.walltime = 48:00:00<br>
   etime = Tue Apr 24 09:26:10 2012<br>
   submit_args = -t 2-11 ./job_dogroup<br>
   job_array_request = 2-11<br>
   fault_tolerant = False<br>
   job_radix = 0<br>
   submit_host = <a href="http://moby.cs.adelaide.edu.au" target="_blank">moby.cs.adelaide.edu.au</a><br>
   init_work_dir = /home/yanzhichen/moby/oxbuilding_vocabulary<br>
<br>
whereas qstat -ft has no mention of 678[x] at all. qdel and qdel -p have no effect<br>
on jobs like these. I think I&#39;ve submitted a fix for the problem that leads to the<br>
job getting into this state, but it would be handy if qdel could remove it.<br>
<br>
Thanks,<br>
<div>
<div><br>
On 24/04/2012, at 2:52 AM, David Beer wrote:<br>
<br>
&gt; Rhys,<br>
&gt;<br>
&gt; I&#39;m surprised that you say you haven&#39;t seen this message before, as the check exists in both places and has been there since 2.5 was released. There must&#39;ve been a bug that allowed it before. In this case, please try the attached patch to see if it resolves
 your problem for 4.0. This patch only requires you to rebuild and restart the server (dependencies are unknown to pbs_moms).<br>
&gt;<br>
&gt; David<br>
&gt;<br>
&gt; On Sun, Apr 22, 2012 at 9:31 PM, Rhys Hill &lt;<a href="mailto:rhys.hill@adelaide.edu.au" target="_blank">rhys.hill@adelaide.edu.au</a>&gt; wrote:<br>
&gt; Hi everyone,<br>
&gt;<br>
&gt; I recently upgraded to torque 4.0 alongside moab 7.0, mostly because we&#39;d been<br>
&gt; having some trouble with cpusets and I&#39;d hoped that the support for hwloc would<br>
&gt; resolve the problem. cpusets are now working very well, but I&#39;m having a lot of<br>
&gt; trouble with job arrays, which form a very large part of our workload.<br>
&gt;<br>
&gt; Torque 4.0.0 would regularly lock-up when processing job arrays, so I upgraded to<br>
&gt; the most recent 4.0.1 snapshot, and that behaves much better, but still seems<br>
&gt; unstable compared to 2.5.9.<br>
&gt;<br>
&gt; One concrete issue is that many of our jobs that worked fine with 2.5.9 are now<br>
&gt; stalling with 4.0.1 with the following message:<br>
&gt;<br>
&gt; &quot;Arrays may only be given array dependencies&quot;<br>
&gt;<br>
&gt; which only seems to appear in the server logs and is otherwise invisible. This<br>
&gt; was certainly never true before, and doesn&#39;t really make sense. We frequently<br>
&gt; use array-&gt;single job dependencies for scatter-gather type operations.<br>
&gt;<br>
&gt; Once the above message has been printed, the job arrays sit in a hold state forever.<br>
&gt; They can&#39;t be removed using qdel and if I try to break the hold using qrls or<br>
&gt; mjobctl, they move into the queued state, but they disappear from moab and never<br>
&gt; actually start, and still can&#39;t be removed. The only way I can get rid of them<br>
&gt; is to bring down pbs_server, which has to killed via `killall -QUIT pbs_server`<br>
&gt; since the init script cannot stop the process properly, and delete the job<br>
&gt; files manually.<br>
&gt;<br>
&gt; I&#39;m currently thinking of just reverting to the old, working version of torque,<br>
&gt; but has anyone else had trouble with job arrays and can the above problems be<br>
&gt; fixed somehow?<br>
&gt;<br>
&gt; Thanks,<br>
&gt;<br>
&gt; --------------------------------------------------------------------------------<br>
&gt; Rhys Hill,                                             Senior Research Associate<br>
&gt; Australian Centre for Visual Technologies                 University of Adelaide<br>
&gt;<br>
&gt; Phone: <a href="tel:%2B61%208%208313%206197" value="+61883136197" target="_blank">+61 8 8313 6197</a>                           Mail:<br>
&gt; Fax:   <a href="tel:%2B61%208%208313%204366" value="+61883134366" target="_blank">+61 8 8313 4366</a>                           School of Computer Science<br>
&gt;                                                 University of Adelaide<br>
&gt;                                                 Adelaide, Australia<br>
&gt; <a href="http://www.cs.adelaide.edu.au/~rhys/" target="_blank">http://www.cs.adelaide.edu.au/~rhys/</a>             5005<br>
&gt; --------------------------------------------------------------------------------<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">
http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; David Beer | Software Engineer<br>
&gt; Adaptive Computing<br>
&gt;<br>
</div>
</div>
&gt; &lt;ArrayDeps.patch&gt;_______________________________________________<br>
<div>
<div>&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">
http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
--------------------------------------------------------------------------------<br>
Rhys Hill,                                             Senior Research Associate<br>
Australian Centre for Visual Technologies                 University of Adelaide<br>
<br>
Phone: <a href="tel:%2B61%208%208313%206197" value="+61883136197" target="_blank">+61 8 8313 6197</a>                           Mail:<br>
Fax:   <a href="tel:%2B61%208%208313%204366" value="+61883134366" target="_blank">+61 8 8313 4366</a>                           School of Computer Science<br>
                                                University of Adelaide<br>
                                                Adelaide, Australia<br>
<a href="http://www.cs.adelaide.edu.au/~rhys/" target="_blank">http://www.cs.adelaide.edu.au/~rhys/</a>             5005<br>
--------------------------------------------------------------------------------<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div>
</div>
</blockquote>
</div>
<br>
<br clear="all">
<div><br>
</div>
-- <br>
<div>David Beer | Software Engineer</div>
<div>Adaptive Computing</div>
<br>
</div>
</div>
</blockquote>
<blockquote type="cite">
<div><span>_______________________________________________</span><br>
<span>torqueusers mailing list</span><br>
<span><a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a></span><br>
<span><a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a></span><br>
</div>
</blockquote>
</div></div></div>

<br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div>David Beer | Software Engineer</div><div>Adaptive Computing</div><br>
</div>