<HTML dir=ltr><HEAD><TITLE>Re: [torqueusers] jobs stuck in Q</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText60523 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>what does `checkjob 2` show you (where 2 is the jobid, as taken from your first email)?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> torqueusers-bounces@supercluster.org on behalf of Adrian Sevcenco<BR><B>Sent:</B> Mon 12/15/2008 12:13 PM<BR><B>To:</B> Greenseid, Joseph M.<BR><B>Cc:</B> torqueusers@supercluster.org<BR><B>Subject:</B> Re: [torqueusers] jobs stuck in Q<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>Greenseid, Joseph M. wrote:<BR>&gt; what scheduler are you using?&nbsp; are you using torque's scheduler, or<BR>&gt; maui, or something else?<BR>Hi,<BR>I am using maui .. do you think that the problem can be there?<BR>Now i see that when i try to restart maui.cfg i have :<BR>ERROR:&nbsp;&nbsp;&nbsp; lost connection to server<BR>ERROR:&nbsp;&nbsp;&nbsp; cannot request service (status)<BR>i have this as maui.cfg<BR>[root@grid01 maui]# cat maui.cfg<BR># MAUI configuration example<BR><BR>SERVERHOST&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; grid01.spacescience.ro<BR>ADMIN1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; root<BR>ADMIN3&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; edginfo rgma edguser<BR>ADMINHOSTS&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; grid01.spacescience.ro<BR>RMCFG[base]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; TYPE=PBS<BR>SERVERPORT&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40559<BR>SERVERMODE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; NORMAL<BR><BR># Set PBS server polling interval. If you have short # queues or/and<BR>jobs it is worth to set a short interval. (10 seconds)<BR><BR>RMPOLLINTERVAL&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 00:00:10<BR><BR># a max. 10 MByte log file in a logical location<BR><BR>LOGFILE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /var/log/maui.log<BR>LOGFILEMAXSIZE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10000000<BR>LOGLEVEL&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1<BR><BR># Set the delay to 1 minute before Maui tries to run a job again, # in<BR>case it failed to run the first time.<BR># The default value is 1 hour.<BR><BR>DEFERTIME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 00:01:00<BR><BR># Necessary for MPI grid jobs<BR>ENABLEMULTIREQJOBS TRUE<BR><BR>Any idea anyone ?<BR>Thanks,<BR>Adrian<BR><BR><BR>&gt; --Joe<BR>&gt;<BR>&gt; ------------------------------------------------------------------------<BR>&gt; *From:* torqueusers-bounces@supercluster.org on behalf of Adrian Sevcenco<BR>&gt; *Sent:* Mon 12/15/2008 10:40 AM<BR>&gt; *To:* torqueusers@supercluster.org<BR>&gt; *Subject:* [torqueusers] jobs stuck in Q<BR>&gt;<BR>&gt; Hi,<BR>&gt; I have a server in which jobs are stucked in queue. i have this output<BR>&gt; from qstat -f :<BR>&gt; Job Id: 2.grid01.spacescience.ro<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Job_Name = STDIN<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Job_Owner = alice001@grid01.spacescience.ro<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; job_state = Q<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; queue = alice<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; server = grid01.spacescience.ro<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Checkpoint = u<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; ctime = Mon Dec 15 17:19:39 2008<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Error_Path = grid01.spacescience.ro:/home/alice001/STDIN.e2<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Hold_Types = n<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Join_Path = n<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Keep_Files = n<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Mail_Points = a<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; mtime = Mon Dec 15 17:20:22 2008<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Output_Path = grid01.spacescience.ro:/home/alice001/STDIN.o2<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Priority = 0<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; qtime = Mon Dec 15 17:20:49 2008<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Rerunable = True<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Resource_List.cput = 48:00:00<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Resource_List.walltime = 72:00:00<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; Variable_List = PBS_O_HOME=/home/alice001,PBS_O_LANG=en_US.UTF-8,<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_O_LOGNAME=alice001,<BR>&gt;<BR>&gt; PBS_O_PATH=/usr/kerberos/bin:/opt/edg/bin:/opt/glite/bin:/opt/lcg/bin<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :/usr/local/bin:/bin:/usr/bin:/usr/X11R6/bin:/home/alice001/bin,<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_O_MAIL=/var/spool/mail/alice001,PBS_O_SHELL=/bin/bash,<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_SERVER=grid01.spacescience.ro,PBS_O_HOST=grid01.spacescience.ro,<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_O_WORKDIR=/home/alice001,PBS_O_QUEUE=alice<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; etime = Mon Dec 15 17:20:49 2008<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp; submit_args = -q alice<BR>&gt;<BR>&gt; and a momctl on a wn gives me this :<BR>&gt; [root@grid01 ~]# momctl -d 3 -h wn01<BR>&gt;<BR>&gt; Host: wn01.spacescience.ro/wn01.spacescience.ro&nbsp;&nbsp; Version:<BR>&gt; 2.3.0-snap.200801151629&nbsp;&nbsp; PID: 7248<BR>&gt; Server[0]: grid01.spacescience.ro (172.16.0.254)<BR>&gt;&nbsp;&nbsp; Init Msgs Received:&nbsp;&nbsp;&nbsp;&nbsp; 0 hellos/1 cluster-addrs<BR>&gt;&nbsp;&nbsp; Init Msgs Sent:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 hellos<BR>&gt;&nbsp;&nbsp; Last Msg From Server:&nbsp;&nbsp; 284242 seconds (CLUSTER_ADDRS)<BR>&gt;&nbsp;&nbsp; Last Msg To Server:&nbsp;&nbsp;&nbsp;&nbsp; 21 seconds<BR>&gt; HomeDirectory:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /var/spool/pbs/mom_priv<BR>&gt; stdout/stderr spool directory: '/var/spool/pbs/spool/' (1072793 blocks<BR>&gt; available)<BR>&gt; NOTE:&nbsp; syslog enabled<BR>&gt; MOM active:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 284244 seconds<BR>&gt; Server Update Interval: 45 seconds<BR>&gt; LogLevel:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 (use SIGUSR1/SIGUSR2 to adjust)<BR>&gt; Communication Model:&nbsp;&nbsp;&nbsp; RPP<BR>&gt; MemLocked:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; TRUE&nbsp; (mlock)<BR>&gt; TCP Timeout:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 20 seconds<BR>&gt; Prolog:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /var/spool/pbs/mom_priv/prologue (disabled)<BR>&gt; Alarm Time:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 of 10 seconds<BR>&gt; Trusted Client List:<BR>&gt; 172.16.0.5,172.16.0.4,172.16.0.3,172.16.0.2,172.16.0.254,172.16.0.1,127.0.0.1<BR>&gt; Copy Command:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /usr/bin/scp -rpB<BR>&gt; NOTE:&nbsp; no local jobs detected<BR>&gt;<BR>&gt; diagnostics complete<BR>&gt;<BR>&gt; What can be wrong and where should i look into ?<BR>&gt; Thanks for any help,<BR>&gt; Adrian<BR>&gt;<BR></FONT></P></DIV></BODY></HTML>