<HTML dir=ltr><HEAD><TITLE>[torqueusers] jobs stuck in Q</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText82506 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>what scheduler are you using?&nbsp; are you using torque's scheduler, or maui, or something else?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> torqueusers-bounces@supercluster.org on behalf of Adrian Sevcenco<BR><B>Sent:</B> Mon 12/15/2008 10:40 AM<BR><B>To:</B> torqueusers@supercluster.org<BR><B>Subject:</B> [torqueusers] jobs stuck in Q<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>Hi,<BR>I have a server in which jobs are stucked in queue. i have this output<BR>from qstat -f :<BR>Job Id: 2.grid01.spacescience.ro<BR>&nbsp;&nbsp;&nbsp; Job_Name = STDIN<BR>&nbsp;&nbsp;&nbsp; Job_Owner = alice001@grid01.spacescience.ro<BR>&nbsp;&nbsp;&nbsp; job_state = Q<BR>&nbsp;&nbsp;&nbsp; queue = alice<BR>&nbsp;&nbsp;&nbsp; server = grid01.spacescience.ro<BR>&nbsp;&nbsp;&nbsp; Checkpoint = u<BR>&nbsp;&nbsp;&nbsp; ctime = Mon Dec 15 17:19:39 2008<BR>&nbsp;&nbsp;&nbsp; Error_Path = grid01.spacescience.ro:/home/alice001/STDIN.e2<BR>&nbsp;&nbsp;&nbsp; Hold_Types = n<BR>&nbsp;&nbsp;&nbsp; Join_Path = n<BR>&nbsp;&nbsp;&nbsp; Keep_Files = n<BR>&nbsp;&nbsp;&nbsp; Mail_Points = a<BR>&nbsp;&nbsp;&nbsp; mtime = Mon Dec 15 17:20:22 2008<BR>&nbsp;&nbsp;&nbsp; Output_Path = grid01.spacescience.ro:/home/alice001/STDIN.o2<BR>&nbsp;&nbsp;&nbsp; Priority = 0<BR>&nbsp;&nbsp;&nbsp; qtime = Mon Dec 15 17:20:49 2008<BR>&nbsp;&nbsp;&nbsp; Rerunable = True<BR>&nbsp;&nbsp;&nbsp; Resource_List.cput = 48:00:00<BR>&nbsp;&nbsp;&nbsp; Resource_List.walltime = 72:00:00<BR>&nbsp;&nbsp;&nbsp; Variable_List = PBS_O_HOME=/home/alice001,PBS_O_LANG=en_US.UTF-8,<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_O_LOGNAME=alice001,<BR><BR>PBS_O_PATH=/usr/kerberos/bin:/opt/edg/bin:/opt/glite/bin:/opt/lcg/bin<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :/usr/local/bin:/bin:/usr/bin:/usr/X11R6/bin:/home/alice001/bin,<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_O_MAIL=/var/spool/mail/alice001,PBS_O_SHELL=/bin/bash,<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_SERVER=grid01.spacescience.ro,PBS_O_HOST=grid01.spacescience.ro,<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PBS_O_WORKDIR=/home/alice001,PBS_O_QUEUE=alice<BR>&nbsp;&nbsp;&nbsp; etime = Mon Dec 15 17:20:49 2008<BR>&nbsp;&nbsp;&nbsp; submit_args = -q alice<BR><BR>and a momctl on a wn gives me this :<BR>[root@grid01 ~]# momctl -d 3 -h wn01<BR><BR>Host: wn01.spacescience.ro/wn01.spacescience.ro&nbsp;&nbsp; Version:<BR>2.3.0-snap.200801151629&nbsp;&nbsp; PID: 7248<BR>Server[0]: grid01.spacescience.ro (172.16.0.254)<BR>&nbsp; Init Msgs Received:&nbsp;&nbsp;&nbsp;&nbsp; 0 hellos/1 cluster-addrs<BR>&nbsp; Init Msgs Sent:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 hellos<BR>&nbsp; Last Msg From Server:&nbsp;&nbsp; 284242 seconds (CLUSTER_ADDRS)<BR>&nbsp; Last Msg To Server:&nbsp;&nbsp;&nbsp;&nbsp; 21 seconds<BR>HomeDirectory:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /var/spool/pbs/mom_priv<BR>stdout/stderr spool directory: '/var/spool/pbs/spool/' (1072793 blocks<BR>available)<BR>NOTE:&nbsp; syslog enabled<BR>MOM active:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 284244 seconds<BR>Server Update Interval: 45 seconds<BR>LogLevel:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 (use SIGUSR1/SIGUSR2 to adjust)<BR>Communication Model:&nbsp;&nbsp;&nbsp; RPP<BR>MemLocked:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; TRUE&nbsp; (mlock)<BR>TCP Timeout:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 20 seconds<BR>Prolog:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /var/spool/pbs/mom_priv/prologue (disabled)<BR>Alarm Time:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0 of 10 seconds<BR>Trusted Client List:<BR>172.16.0.5,172.16.0.4,172.16.0.3,172.16.0.2,172.16.0.254,172.16.0.1,127.0.0.1<BR>Copy Command:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /usr/bin/scp -rpB<BR>NOTE:&nbsp; no local jobs detected<BR><BR>diagnostics complete<BR><BR>What can be wrong and where should i look into ?<BR>Thanks for any help,<BR>Adrian<BR></FONT></P></DIV></BODY></HTML>