On Mon, Dec 3, 2012 at 12:12 PM, Gus Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu" target="_blank">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="HOEnZb"><div class="h5">On 12/02/2012 01:24 PM, Craig Tierney - NOAA Affiliate wrote:<br>
&gt; Hello all,<br>
&gt;<br>
&gt; I have a question for Torque users regarding the display of completed<br>
&gt; jobs in qstat.  Do others find the listing of completed jobs by default<br>
&gt; via qstat makes finding things in the output much more difficult and<br>
&gt; completely unnecessary?  Having the completed jobs in qstat can<br>
&gt; significantly slow down qstat if you have a lot (thousands) of completed<br>
&gt; jobs which is another hassle.<br>
&gt;<br>
&gt; I asking this because I need to be able to get error codes from<br>
&gt; completed jobs (for minutes to hours after completion).  To do this,<br>
&gt; they have to still be in the queue.  This function is very important,<br>
&gt; but not to anyone who runs qstat by hand.  Grid Engine had a way to get<br>
&gt; completed jobs, but only when asked for.<br>
&gt;<br>
&gt; Thanks,<br>
&gt; Craig<br>
&gt;<br>
<br>
</div></div>Hi Craig<br>
<br>
Well, we keep the completed jobs on the queue for a several hours,<br>
qmgr -c &#39;set server keep_completed = ...&#39;<br>
Users here never complained, and seem to like<br>
to see queued, running, and completed jobs.<br>
The old/default time of 1200 seconds was too short.<br>
However, our clusters and the number of users are small,<br>
nothing like Zeus, so the clutter caused by keeping completed<br>
jobs on the queue for hours is not large.<br>
Would &#39;qstat -u username&#39; or some other filtering<br>
help the annoyed users?<br>
<br></blockquote><div><br></div><div>Gus,</div><div><br></div><div>We currently have the keep_completed to only 600 seconds, and that is too short.  We are running about 40k-50k jobs a day.  While using -u username would help, it still seems unnecessary.  The jobs are not evenly distributed between users.  Some will hundreds in a single workflow (which would be over a few hours).</div>
<div>I don&#39;t mind retraining users (ex: use the -u), but the first thing I would do as a user would be write a wrapper to hide them, so I figure a better solution is in order.</div><div><br></div><div>But breaking existing functionality is not usually a good idea which is why I was looking for opinions.  I already have a small patch that removes the completed jobs, but added -c to show the completed jobs in case you care.  But if the solution isn&#39;t generally acceptable, I don&#39;t want to be patching my code all the time.</div>
<div><br></div><div>Craig</div><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Gus Correa<br>
<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br>