<br><font size=2 face="Arial">We'll, I'll throw my two cents in for what
it's worth since noone else has chimed in...</font>
<br>
<br><font size=2 face="Arial">It seem like your first problem is this:</font>
<br><font size=2 face="sans-serif">02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Svr;pbs_mom;Bad
UID for job execution (15023) in 66.etlpoc4, job_start_error from node
172.21.148.216:15003 in job_start_error</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Svr;pbs_mom;Bad UID for job execution
(15023) in 66.etlpoc4, abort attempted 16 times in job_start_error. &nbsp;ignoring
abort request from node 172.21.148.216:15003</font><font size=3> </font>
<br>
<br><font size=2 face="Arial">I would worry that whatever the ldap is trying
to do is failing to get the users mapped correctly? &nbsp;It looks like
you have moms running on etlpoc3 and etlpoc4 and the server is running
on etlpoc4? &nbsp;The mom log you show is from etlpoc3, what does the mom
log in etlpoc4 say?</font>
<br>
<br><font size=2 face="Arial">I don't know why the job doesn't seem to
clean itself up properly, but in order to get the job to execute correctly,
you'll need to get rid of the above error first.</font>
<br>
<br><font size=2 face="Arial">Nate</font>
<br>
<br>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td width=40%><font size=1 face="sans-serif"><b>Jonas_Berlin@harte-hanks.com</b>
</font>
<br><font size=1 face="sans-serif">Sent by: torqueusers-bounces@supercluster.org</font>
<p><font size=1 face="sans-serif">13-Feb-2006 10:02</font>
<td width=59%><font size=1 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp;
</font>
<table width=100%>
<tr>
<td>
<div align=right><font size=1 face="sans-serif">To</font></div>
<td valign=top><font size=1 face="sans-serif">torqueusers@supercluster.org</font>
<tr>
<td>
<div align=right><font size=1 face="sans-serif">cc</font></div>
<td valign=top>
<tr>
<td>
<div align=right><font size=1 face="sans-serif">Subject</font></div>
<td valign=top><font size=1 face="sans-serif">[torqueusers] Job stuck in
limbo causing logs to fill</font></table>
<br>
<table>
<tr valign=top>
<td>
<td></table>
<br></table>
<br>
<br>
<br><font size=2 face="sans-serif"><br>
I am running a job on two machines etlpoc4 and etlpoc3.</font><font size=3>
<br>
</font><font size=2 face="sans-serif"><br>
When I run a job as a user that exists in ldap it first fails to execute,
then gets stuck when it fails to clean up. When run as a local user the
job runs fine.</font><font size=3> </font><font size=2 face="sans-serif"><br>
The state of the job swiches between running and queued. </font><font size=3><br>
</font><font size=2 face="sans-serif"><b><br>
This is the state of the job:</b></font><font size=3> <br>
</font><font size=2 face="sans-serif"><br>
Job Id: 66.etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Job_Name = dummy_sort.4035</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Job_Owner = jberlin@etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;job_state = R</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;queue = batch</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;server = etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Checkpoint = u</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;ctime = Fri Feb 10 16:36:00 2006</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Error_Path = etlpoc4:/sandbox/jberlin/scratch/run/dummy_sort.4035.e66</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;exec_host = etlpoc3/0+etlpoc4/0</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Hold_Types = n</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Join_Path = n</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Keep_Files = n</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Mail_Points = a</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;mtime = Mon Feb 13 09:44:37 2006</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Output_Path = etlpoc4:/sandbox/jberlin/scratch/run/dummy_sort.4035.o66</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Priority = 0</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;qtime = Fri Feb 10 16:36:00 2006</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Rerunable = True</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Resource_List.neednodes = 2</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Resource_List.nodect = 2</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Resource_List.nodes = 2</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Resource_List.walltime = 01:00:00</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Shell_Path_List = /bin/ksh</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;substate = 40</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;Variable_List = PBS_O_HOME=/home/jberlin,PBS_O_LANG=en_US.UTF-8,</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;PBS_O_LOGNAME=jberlin,</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;PBS_O_PATH=/prod/software/bin:/usr/local/bin:/opt/syncsort/bin:/opt/SU</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;NWspro/bin:/tools/bin:/bin:/usr/bin:/usr/ucb:/usr/ccs/bin:/etc:/usr/etc</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;:/usr/bin/X11:/bin:.:/usr/kerberos/bin:/usr/local/bi</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;n:/bin:/usr/bin:/usr/X11R6/bin:/u01/app/oracle/product/10.1.0.3:/u01/app/oracle/pr</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;oduct/10.1.0.3/bin:/u01/app/oracle/product/10.1.0.3/lib,</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;PBS_O_MAIL=/var/spool/mail/jberlin,PBS_O_SHELL=/bin/ksh,</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;PBS_O_HOST=etlpoc4,PBS_O_WORKDIR=/sandbox/jberlin/scratch/run,</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp; &nbsp; &nbsp;PBS_O_QUEUE=batch</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;euser = jberlin</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;egroup = 107</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;hashname = 66.etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;queue_rank = 38</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;queue_type = E</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;comment = Job started on Mon Feb 13 at 09:44</font><font size=3>
</font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;etime = Fri Feb 10 16:36:00 2006</font><font size=3> </font><font size=2 face="sans-serif"><br>
 &nbsp; &nbsp;exit_status = -3</font><font size=3> <br>
</font><font size=2 face="sans-serif"><b><br>
The server is stuck at:</b></font><font size=3> <br>
</font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0080;PBS_Server;Req;req_reject;Reject reply code=15016(Request
invalid for state of job), aux=0, type=JobObituary, from pbs_mom@etlpoc3</font><font size=3>
</font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type StatusQueue request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type SelStat request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type ResourceQuery request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type RunJob request received from
Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0008;PBS_Server;Job;66.etlpoc4;Job Run at request of
Scheduler@etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0040;PBS_Server;Svr;etlpoc4;Scheduler sent command
recyc</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type JobObituary request received
from pbs_mom@etlpoc3, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0040;PBS_Server;Svr;etlpoc4;Scheduler sent command
new</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type StatusServer request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type StatusNode request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type JobObituary request received
from pbs_mom@etlpoc3, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0009;PBS_Server;Job;66.etlpoc4;obit received for job
66.etlpoc4 from host etlpoc3 with bad state (state: QUEUED)</font><font size=3>
</font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0080;PBS_Server;Req;req_reject;Reject reply code=15016(Request
invalid for state of job), aux=0, type=JobObituary, from pbs_mom@etlpoc3</font><font size=3>
</font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type StatusQueue request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type SelStat request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type ResourceQuery request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type RunJob request received from
Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0008;PBS_Server;Job;66.etlpoc4;Job Run at request of
Scheduler@etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0040;PBS_Server;Svr;etlpoc4;Scheduler sent command
recyc</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type JobObituary request received
from pbs_mom@etlpoc3, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0040;PBS_Server;Svr;etlpoc4;Scheduler sent command
new</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type StatusServer request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type StatusNode request received
from Scheduler@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0100;PBS_Server;Req;;Type JobObituary request received
from pbs_mom@etlpoc3, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0009;PBS_Server;Job;66.etlpoc4;obit received for job
66.etlpoc4 from host etlpoc3 with bad state (state: QUEUED)</font><font size=3>
</font><font size=2 face="sans-serif"><br>
02/13/2006 09:51:45;0080;PBS_Server;Req;req_reject;Reject reply code=15016(Request
invalid for state of job), aux=0, type=JobObituary, from pbs_mom@etlpoc3</font><font size=3>
<br>
</font><font size=2 face="sans-serif"><b><br>
At the same time the mom_log on etlpoc3 keeps repeating:</b></font><font size=3>
<br>
</font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type Commit request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type StatusJob request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Svr;pbs_mom;Bad UID for job execution
(15023) in 66.etlpoc4, job_start_error from node 172.21.148.216:15003 in
job_start_error</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Svr;pbs_mom;Bad UID for job execution
(15023) in 66.etlpoc4, abort attempted 16 times in job_start_error. &nbsp;ignoring
abort request from node 172.21.148.216:15003</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0008; &nbsp; pbs_mom;Req;send_sisters;sending ABORT
to sisters</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Req;obit reply;Job not found for
obit reply</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Job;66.etlpoc4;server rejected
job obit - unexpected job state</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type DeleteJob request received
from PBS_Server@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0080; &nbsp; pbs_mom;Req;req_reject;Reject reply code=15001(Unknown
Job Id REJHOST=etlpoc3 MSG=cannot locate job to delete), aux=0, type=DeleteJob,
from PBS_Server@etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type QueueJob request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type JobScript request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type ReadyToCommit request
received from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type Commit request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type StatusJob request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Svr;pbs_mom;Bad UID for job execution
(15023) in 66.etlpoc4, job_start_error from node 172.21.148.216:15003 in
job_start_error</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Svr;pbs_mom;Bad UID for job execution
(15023) in 66.etlpoc4, abort attempted 16 times in job_start_error. &nbsp;ignoring
abort request from node 172.21.148.216:15003</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0008; &nbsp; pbs_mom;Req;send_sisters;sending ABORT
to sisters</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Req;obit reply;Job not found for
obit reply</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0001; &nbsp; pbs_mom;Job;66.etlpoc4;server rejected
job obit - unexpected job state</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type DeleteJob request received
from PBS_Server@etlpoc4, sock=13</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0080; &nbsp; pbs_mom;Req;req_reject;Reject reply code=15001(Unknown
Job Id REJHOST=etlpoc3 MSG=cannot locate job to delete), aux=0, type=DeleteJob,
from PBS_Server@etlpoc4</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type QueueJob request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type JobScript request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type ReadyToCommit request
received from PBS_Server@etlpoc4, sock=10</font><font size=3> </font><font size=2 face="sans-serif"><br>
02/13/2006 09:48:44;0100; &nbsp; pbs_mom;Req;;Type Commit request received
from PBS_Server@etlpoc4, sock=10</font><font size=3> <br>
<br>
</font><font size=2 face="sans-serif"><br>
Any ideas of how to diagnose would be appreciated.</font><font size=3>
<br>
</font><font size=2 face="sans-serif"><br>
Thanks,</font><font size=3> <br>
</font><font size=2 face="sans-serif"><br>
Jonas</font><font size=3> </font><font size=2><tt>_______________________________________________<br>
torqueusers mailing list<br>
torqueusers@supercluster.org<br>
http://www.supercluster.org/mailman/listinfo/torqueusers<br>
</tt></font>
<br>