<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body text="#000000" bgcolor="#ffffff">
    Good afternoon,<br>
    <br>
    I apologize for the eternal question, "why isn't my job running"<br>
    but I'm not sure where to look next. I'm running Torque 4.0.2<br>
    that I built on a Scientific Linux 6.2 box. <br>
    <br>
    The job script is,<br>
    <br>
    #!/bin/bash<br>
    #PBS -q batch<br>
    #PBS -l walltime=00:10:00<br>
    #PBS -l nodes=1:ppn=1<br>
    <br>
    date<br>
    hostname<br>
    sleep 20<br>
    date<br>
    <br>
    <br>
    I submit using qsub and then "qstat -a" looks like,<br>
    <br>
    <tt>[laytonjb@test1 TEST]$ qstat -a<br>
      <br>
      test1: <br>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

      Req'd&nbsp; Req'd&nbsp;&nbsp; Elap<br>
      Job ID&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Username&nbsp;&nbsp;&nbsp; Queue&nbsp;&nbsp;&nbsp; Jobname&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SessID
      NDS&nbsp;&nbsp; TSK&nbsp;&nbsp;&nbsp; Memory Time&nbsp; S Time<br>
      -------------------- ----------- -------- ---------------- ------
      ----- ------ ------ ----- - -----<br>
      11.test1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; laytonjb&nbsp;&nbsp;&nbsp; batch&nbsp;&nbsp;&nbsp; pbs_test2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
      --&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; --&nbsp; 00:10 Q&nbsp;&nbsp; -- </tt><br>
    <br>
    <br>
    It stays like this forever. I looked in the logs and didn't see any<br>
    anything obvious. Here is some output that may help.<br>
    <br>
    <br>
    Server logs:<br>
    <br>
    08/05/2012 16:15:35;0100;PBS_Server;Job;11.test1;enqueuing into
    batch, state 1 hop 1<br>
    08/05/2012 16:15:35;0008;PBS_Server;Job;11.test1;Job Queued at
    request of laytonjb@test1, owner = laytonjb@test1, job name =
    pbs_test2, queue = batch<br>
    <br>
    <br>
    Scheduler logs: (FIFO scheduler):<br>
    <br>
    08/05/2012 15:44:44;0002; pbs_sched;Svr;die;caught signal 15<br>
    08/05/2012 15:44:44;0002; pbs_sched;Svr;Log;Log closed<br>
    08/05/2012 15:44:44;0002; pbs_sched;Svr;Log;Log opened<br>
    08/05/2012 15:44:44;0002; pbs_sched;Svr;TokenAct;Account file
    /opt/torque/sched_priv/accounting/20120805 opened<br>
    08/05/2012 15:44:44;0002;
    pbs_sched;Svr;main;/opt/torque/sbin/pbs_sched startup pid 4782<br>
    <br>
    <br>
    pbs_mom logs: (I tried restarting the mom ("service pbs_mom
    restart") and the output is below)<br>
    <br>
    08/05/2012 16:17:28;0002;&nbsp;&nbsp; pbs_mom;n/a;rm_request;shutdown<br>
    08/05/2012 16:17:28;0002;&nbsp;&nbsp; pbs_mom;n/a;dep_cleanup;dependent
    cleanup<br>
    08/05/2012 16:17:28;0002;&nbsp;&nbsp; pbs_mom;Svr;Log;Log closed<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;Svr;Log;Log opened<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version =
    4.0.2, loglevel = 0<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;Svr;setpbsserver;test1<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;Svr;mom_server_add;server test1
    added<br>
    08/05/2012 16:17:31;0001;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;LOG_ERROR::No such
    file or directory (2) in check_partition_confirm_script, Couldn't
    stat the partition confirm command '/opt/moab/default/tools/xt4/<a
      href="http://partition.create.xt4.pl">partition.create.xt4.pl</a>'
    - ignore this if you aren't running a cray<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;n/a;initialize;independent<br>
    08/05/2012 16:17:31;0080;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;before
    init_abort_jobs<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;Is up<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp;
    pbs_mom;Svr;setup_program_environment;MOM executable path and mtime
    at launch: /usr/sbin/pbs_mom 1344179259<br>
    08/05/2012 16:17:31;0002;&nbsp;&nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version =
    4.0.2, loglevel = 0<br>
    <br>
    <br>
    pbsnodes -a:<br>
    <br>
    [root@test1 mom_logs]# pbsnodes -a<br>
    n0001<br>
    &nbsp;&nbsp;&nbsp;&nbsp; state = free<br>
    &nbsp;&nbsp;&nbsp;&nbsp; np = 1<br>
    &nbsp;&nbsp;&nbsp;&nbsp; ntype = cluster<br>
    &nbsp;&nbsp;&nbsp;&nbsp; status =
    rectime=1344197869,varattr=,jobs=,state=free,netload=120587595,gres=,loadave=0.02,ncpus=3,physmem=2956668kb,availmem=2836956kb,totmem=2956668kb,idletime=4196,nusers=1,nsessions=1,sessions=1560,uname=Linux

    n0001 2.6.32-220.el6.x86_64 #1 SMP Sat Dec 10 17:04:11 CST 2011
    x86_64,opsys=linux<br>
    &nbsp;&nbsp;&nbsp;&nbsp; mom_service_port = 15002<br>
    &nbsp;&nbsp;&nbsp;&nbsp; mom_manager_port = 15003<br>
    &nbsp;&nbsp;&nbsp;&nbsp; gpus = 0<br>
    <br>
    <br>
    <br>
    qmgr -c "p s":<br>
    [root@test1 mom_logs]# qmgr -c "p s"<br>
    #<br>
    # Create queues and set their attributes.<br>
    #<br>
    #<br>
    # Create and define queue batch<br>
    #<br>
    create queue batch<br>
    set queue batch queue_type = Execution<br>
    set queue batch resources_default.nodes = 1<br>
    set queue batch resources_default.walltime = 01:00:00<br>
    set queue batch enabled = True<br>
    set queue batch started = True<br>
    #<br>
    # Set server attributes.<br>
    #<br>
    set server scheduling = True<br>
    set server acl_hosts = test1<br>
    set server managers = laytonjb@test1<br>
    set server operators = laytonjb@test1<br>
    set server default_queue = batch<br>
    set server log_events = 511<br>
    set server mail_from = adm<br>
    set server scheduler_iteration = 600<br>
    set server node_check_rate = 150<br>
    set server tcp_timeout = 300<br>
    set server job_stat_rate = 45<br>
    set server poll_jobs = True<br>
    set server mom_job_sync = True<br>
    set server next_job_number = 12<br>
    set server moab_array_compatible = True<br>
    <br>
    <br>
    Not sure where to start looking from here.<br>
    <br>
    TIA!<br>
    <br>
    Jeff<br>
    <br>
  </body>
</html>