<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7638.1">
<TITLE>RE: [Mauiusers] completed jobs still shown in queue</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>No - I don't have any epilogue scripts configured. The script I was running was very simple:<BR>
<BR>
$ more pbs_test.sh<BR>
#!/bin/bash<BR>
echo &quot;Hello from $(uname -n)&quot;<BR>
sleep 20<BR>
printenv | egrep &quot;PBS_NODENUM|PBS_VNODENUM|PBS_TASKNUM|PBS_O_HOST&quot; | sort<BR>
echo &quot; &quot;<BR>
exit 0<BR>
<BR>
<BR>
Prentice<BR>
<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: Matney Sr, Kenneth D. [<A HREF="mailto:matneykdsr@ornl.gov">mailto:matneykdsr@ornl.gov</A>]<BR>
Sent: Wed 3/1/2006 2:16 PM<BR>
To: Bisbal, Prentice<BR>
Subject: RE: [Mauiusers] completed jobs still shown in queue<BR>
<BR>
Is it possible that MOM was running an epilog on behalf of<BR>
the job in this time interval?&nbsp; For example, an epilog that<BR>
removes scratch areas that are NFS mounted to all of<BR>
your compute nodes might cause a delay between when<BR>
PBS records an exit status for the job and the job is marked<BR>
complete at the server.<BR>
<BR>
Just curious.&nbsp; -- Ken Matney, Sr.<BR>
<BR>
________________________________<BR>
<BR>
From: mauiusers-bounces@supercluster.org<BR>
[<A HREF="mailto:mauiusers-bounces@supercluster.org">mailto:mauiusers-bounces@supercluster.org</A>] On Behalf Of Bisbal,<BR>
Prentice<BR>
Sent: Wednesday, March 01, 2006 1:30 PM<BR>
To: Stewart.Samuels@sanofi-aventis.com; mauiusers@supercluster.org<BR>
Subject: RE: [Mauiusers] completed jobs still shown in queue<BR>
<BR>
<BR>
<BR>
qdel didn't work for me - something about the job being in an invalid<BR>
state for that operation.<BR>
<BR>
All the jobs involved were on a system that was very loaded (8 cpus, all<BR>
at 99% usage). I suspect the heavy loading of the system caused delays<BR>
in communication which in turn caused some sort fo message time out.<BR>
<BR>
Prentice<BR>
<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: Stewart.Samuels@sanofi-aventis.com<BR>
[<A HREF="mailto:Stewart.Samuels@sanofi-aventis.com">mailto:Stewart.Samuels@sanofi-aventis.com</A>]<BR>
Sent: Wed 3/1/2006 12:45 PM<BR>
To: Bisbal, Prentice; mauiusers@supercluster.org<BR>
Subject: RE: [Mauiusers] completed jobs still shown in queue<BR>
<BR>
We se the same behavior periodically.&nbsp; We are running torque-1.2.0p1 and<BR>
maui-3.2.6p11.&nbsp; Not only is this an anoyance, but it also prevents maui<BR>
from scheduling jobs on those nodes.&nbsp; Most of the time you can qdel<BR>
them.<BR>
<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Stewart<BR>
<BR>
-----Original Message-----<BR>
From: mauiusers-bounces@supercluster.org<BR>
[<A HREF="mailto:mauiusers-bounces@supercluster.org">mailto:mauiusers-bounces@supercluster.org</A>]On Behalf Of Bisbal, Prentice<BR>
Sent: Wednesday, March 01, 2006 10:03 AM<BR>
To: mauiusers@supercluster.org<BR>
Subject: [Mauiusers] completed jobs still shown in queue<BR>
<BR>
<BR>
<BR>
I have 4 simple jobs stuck in my queue. The jobs ran to completion, but<BR>
they are still shown as being in the queue:<BR>
<BR>
<BR>
$ showq<BR>
ACTIVE JOBS--------------------<BR>
JOBNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; USERNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STATE&nbsp; PROC&nbsp;&nbsp; REMAINING<BR>
STARTTIME<BR>
<BR>
3183&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pxxxxxx&nbsp;&nbsp;&nbsp; Running&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 00:46:01&nbsp; Wed Mar&nbsp; 1<BR>
09:44:58<BR>
3184&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pxxxxxx&nbsp;&nbsp;&nbsp; Running&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 00:46:04&nbsp; Wed Mar&nbsp; 1<BR>
09:45:01<BR>
3185&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pxxxxxx&nbsp;&nbsp;&nbsp; Running&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 00:46:04&nbsp; Wed Mar&nbsp; 1<BR>
09:45:01<BR>
3186&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pxxxxxx&nbsp;&nbsp;&nbsp; Running&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 00:46:04&nbsp; Wed Mar&nbsp; 1<BR>
09:45:01<BR>
<BR>
&nbsp;&nbsp;&nbsp;&nbsp; 4 Active Jobs&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4 of&nbsp;&nbsp; 22 Processors Active (18.18%)<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 of&nbsp;&nbsp;&nbsp; 7 Nodes Active&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (14.29%)<BR>
<BR>
A tracejob shows that these jobs completed and exited w/o any errors:<BR>
<BR>
$&nbsp; tracejob 3186<BR>
<BR>
Job: 3186.hw-emperor.lexpharma.com<BR>
<BR>
03/01/2006 09:43:38&nbsp; S&nbsp;&nbsp;&nbsp; enqueuing into batch, state 1 hop 1<BR>
03/01/2006 09:43:38&nbsp; S&nbsp;&nbsp;&nbsp; Job Queued at request of<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pxxxxxx@hw-underdog.xxxxxxxxx.com owner =<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; pxxxxxx@hw-underdog.xxxxxxxxx.com, job name =<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_TEST.87, queue = batch<BR>
03/01/2006 09:45:02&nbsp; S&nbsp;&nbsp;&nbsp; Job Modified at request of<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; maui@hw-emperor.lexpharma.com<BR>
03/01/2006 09:45:02&nbsp; S&nbsp;&nbsp;&nbsp; Job Run at request of<BR>
maui@hw-emperor.xxxxxxxxxx.com<BR>
03/01/2006 09:45:33&nbsp; S&nbsp;&nbsp;&nbsp; Exit_status=0 resources_used.cpupercent=0<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resources_used.cput=00:00:00<BR>
resources_used.mem=5408kb<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resources_used.vmem=9280kb<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; resources_used.walltime=00:00:30<BR>
<BR>
Any idea why these jobs are still shown in the queue? What is the best<BR>
way to get rid of them?<BR>
<BR>
Prentice<BR>
<BR>
<BR>
<BR>
<BR>
<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>