<div>Hi all,</div><div><br></div><div>         My situation has improved but I am still not there.  I can submit a job successfully, but it will stay in the queue until I force execution with qrun. </div><div><br></div><div>
eg.</div><div><br></div><div><div>-bash-4.1$ qsub ./example_submit_script_1</div><div>22.admin.default.domain</div><div>-bash-4.1$ qstat -a</div><div><br></div><div>admin.default.domain: </div><div>                                                                         Req&#39;d  Req&#39;d   Elap</div>
<div>Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time</div><div>-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----</div><div>22.admin.default     salls    batch    ExampleJob          --      1   1    --  00:01 Q   -- </div>
</div><div><br></div><div>.[root@wings ~]# qrun 22</div><div>[root@wings ~]# qstat -a</div><div><br></div><div>admin.default.domain: </div><div>                                                                         Req&#39;d  Req&#39;d   Elap</div>
<div>Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time</div><div>-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----</div><div>22.admin.default     salls    batch    ExampleJob        30429     1   1    --  00:01 R   -- </div>
<div><br></div><div><div>[root@wings ~]# qstat -a</div><div><br></div><div>admin.default.domain: </div><div>                                                                         Req&#39;d  Req&#39;d   Elap</div><div>Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time</div>
<div>-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----</div><div>22.admin.default     salls    batch    ExampleJob        30429     1   1    --  00:01 C 00:00</div><div>[root@wings ~]# </div>
</div><div><br></div><div><br></div><div>This is what tracejob output looks like:</div><div><br></div><div><div>[root@wings ~]# tracejob 22</div><div>/var/spool/torque/mom_logs/20120216: No such file or directory</div><div>
/var/spool/torque/sched_logs/20120216: No matching job records located</div><div><br></div><div>Job: 22.admin.default.domain</div><div><br></div><div>02/16/2012 13:46:51  S    enqueuing into batch, state 1 hop 1</div><div>
02/16/2012 13:46:51  S    Job Queued at request of salls@admin.default.domain, owner = salls@admin.default.domain,</div><div>                          job name = ExampleJob, queue = batch</div><div>02/16/2012 13:46:51  A    queue=batch</div>
<div>02/16/2012 13:53:53  S    Job Run at request of root@admin.default.domain</div><div>02/16/2012 13:53:53  S    Not sending email: User does not want mail of this type.</div><div>02/16/2012 13:53:53  A    user=salls group=man jobname=ExampleJob queue=batch ctime=1329421611 qtime=1329421611</div>
<div>                          etime=1329421611 start=1329422033 owner=salls@admin.default.domain</div><div>                          exec_host=n001.default.domain/0 Resource_List.neednodes=1 Resource_List.nodect=1</div><div>
                          Resource_List.nodes=1 Resource_List.walltime=00:01:00 </div><div>02/16/2012 13:54:03  S    Not sending email: User does not want mail of this type.</div><div>02/16/2012 13:54:03  S    Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb</div>
<div>                          resources_used.walltime=00:00:10</div><div>02/16/2012 13:54:03  A    user=salls group=man jobname=ExampleJob queue=batch ctime=1329421611 qtime=1329421611</div><div>                          etime=1329421611 start=1329422033 owner=salls@admin.default.domain</div>
<div>                          exec_host=n001.default.domain/0 Resource_List.neednodes=1 Resource_List.nodect=1</div><div>                          Resource_List.nodes=1 Resource_List.walltime=00:01:00 session=30429 end=1329422043</div>
<div>                          Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb</div><div>                          resources_used.walltime=00:00:10</div></div><div><br></div><div>
<br></div><div>This is what the output files look like:</div><div><br></div><div><div>-bash-4.1$ more ExampleJob.o22</div><div>Thu Feb 16 13:53:53 CST 2012</div><div>Thu Feb 16 13:54:03 CST 2012</div></div><div><div>-bash-4.1$ more ExampleJob.e22</div>
<div>-bash-4.1$ </div></div><div><br></div><div>This is my basic server config:</div><div><br></div><div><div>[root@wings ~]# qmgr</div><div>Max open servers: 10239</div><div>Qmgr: print server</div><div>#</div><div># Create queues and set their attributes.</div>
<div>#</div><div>#</div><div># Create and define queue batch</div><div>#</div><div>create queue batch</div><div>set queue batch queue_type = Execution</div><div>set queue batch resources_default.nodes = 1</div><div>set queue batch resources_default.walltime = 01:00:00</div>
<div>set queue batch enabled = True</div><div>set queue batch started = True</div><div>#</div><div># Set server attributes.</div><div>#</div><div>set server scheduling = True</div><div>set server acl_hosts = admin.default.domain</div>
<div>set server acl_hosts += <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div><div>set server managers = <a href="mailto:root@wings.glerl.noaa.gov">root@wings.glerl.noaa.gov</a></div><div>set server managers += <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a></div>
<div>set server operators = <a href="mailto:root@wings.glerl.noaa.gov">root@wings.glerl.noaa.gov</a></div><div>set server operators += <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a></div><div>set server default_queue = batch</div>
<div>set server log_events = 511</div><div>set server mail_from = adm</div><div>set server scheduler_iteration = 600</div><div>set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div><div>set server mom_job_sync = True</div>
<div>set server keep_completed = 300</div><div>set server next_job_number = 23</div></div><div><br></div><div>Processes running on server:</div><div><br></div><div><div>root     32086     1  0 13:23 ?        00:00:00 /usr/local/sbin/pbs_server -d /var/spool/torque -H admin.default.domain</div>
<div>root     32173     1  0 13:23 ?        00:00:00 /usr/local/sbin/pbs_sched -d /var/spool/torque</div></div><div><br></div><div><br></div><div>My sched_config file looks like this.  I left the default values as is.</div>
<div><br></div><div><div>[root@wings sched_priv]# more sched_config</div><div><br></div><div><br></div><div># This is the config file for the scheduling policy</div><div># FORMAT:  option: value prime_option</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>option <span class="Apple-tab-span" style="white-space:pre">                </span>- the name of what we are changing defined in config.h</div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>value  <span class="Apple-tab-span" style="white-space:pre">                </span>- can be boolean/string/numeric depending on the option</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>prime_option<span class="Apple-tab-span" style="white-space:pre">        </span>- can be prime/non_prime/all ONLY FOR SOME OPTIONS</div>
<div><br></div><div># Round Robin - </div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>run a job from each queue before running second job from the</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>first queue.</div>
<div><br></div><div>round_robin: False<span class="Apple-tab-span" style="white-space:pre">        </span>all</div><div><br></div><div><br></div><div># By Queue - </div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>run jobs by queues.</div>
<div>#       If it is not set, the scheduler will look at all the jobs on</div><div>#       on the server as one large queue, and ignore the queues set</div><div>#       by the administrator</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div>
<div><br></div><div>by_queue: True<span class="Apple-tab-span" style="white-space:pre">                </span>prime</div><div>by_queue: True<span class="Apple-tab-span" style="white-space:pre">                </span>non_prime</div><div><br></div><div>
<br></div><div># Strict Fifo - </div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>run jobs in strict fifo order.  If one job can not run</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>move onto the next queue and do not run any more jobs</div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>out of that queue even if some jobs in the queue could</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>be run.</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>If it is not set, it could very easily starve the large</div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>resource using jobs.</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div><div><br></div><div>strict_fifo: false<span class="Apple-tab-span" style="white-space:pre">        </span>ALL</div>
<div><br></div><div>#</div><div># fair_share - schedule jobs based on usage and share values</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div><div>#</div><div>fair_share: false<span class="Apple-tab-span" style="white-space:pre">        </span>ALL</div>
<div><br></div><div># Help Starving Jobs - </div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>Jobs which have been waiting a long time will</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>be considered starving.  Once a job is considered</div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>starving, the scheduler will not run any jobs </div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>until it can run all of the starving jobs.  </div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div><div><br></div><div>help_starving_jobs<span class="Apple-tab-span" style="white-space:pre">        </span>true<span class="Apple-tab-span" style="white-space:pre">        </span>ALL</div>
<div><br></div><div>#</div><div># sort_queues - sort queues by the priority attribute</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div><div>#</div><div>sort_queues<span class="Apple-tab-span" style="white-space:pre">        </span>true<span class="Apple-tab-span" style="white-space:pre">        </span>ALL</div>
<div><br></div><div>#</div><div># load_balancing - load balance between timesharing nodes</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div><div>#</div><div>load_balancing: false<span class="Apple-tab-span" style="white-space:pre">        </span>ALL</div>
<div><br></div><div># sort_by:</div><div># key:</div><div># <span class="Apple-tab-span" style="white-space:pre">        </span>to sort the jobs on one key, specify it by sort_by</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>If multiple sorts are necessary, set sory_by to multi_sort</div>
<div># <span class="Apple-tab-span" style="white-space:pre">        </span>specify the keys in order of sorting</div><div><br></div><div># if round_robin or by_queue is set, the jobs will be sorted in their</div><div># respective queues.  If not the entire server will be sorted.</div>
<div><br></div><div># different sorts - defined in globals.c</div><div># no_sort shortest_job_first longest_job_first smallest_memory_first </div><div># largest_memory_first high_priority_first low_priority_first multi_sort</div>
<div># fair_share large_walltime_first short_walltime_first</div><div>#</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>PRIME OPTION</div><div>sort_by: shortest_job_first<span class="Apple-tab-span" style="white-space:pre">        </span>ALL</div>
<div><br></div><div># filter out prolific debug messages</div><div># 256 are DEBUG2 messages </div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>NO PRIME OPTION</div><div>log_filter: 256</div><div><br>
</div><div># all queues starting with this value are dedicated time queues</div><div># i.e. dedtime or dedicatedtime would be dedtime queues</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>NO PRIME OPTION</div>
<div>dedicated_prefix: ded</div><div><br></div><div># ignored queues</div><div># you can specify up to 16 queues to be ignored by the scheduler</div><div>#ignore_queue: queue_name</div><div><br></div><div># this defines how long before a job is considered starving.  If a job has </div>
<div># been queued for this long, it will be considered starving</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>NO PRIME OPTION</div><div>max_starve: 24:00:00</div><div><br></div><div># The following three config values are meaningless with fair share turned off</div>
<div><br></div><div># half_life - the half life of usage for fair share</div><div>#<span class="Apple-tab-span" style="white-space:pre">        </span>NO PRIME OPTION</div><div>half_life: 24:00:00</div><div><br></div><div># unknown_shares - the number of shares for the &quot;unknown&quot; group</div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>NO PRIME OPTION</div><div>unknown_shares: 10</div><div><br></div><div># sync_time - the amount of time between syncing the usage information to disk</div>
<div>#<span class="Apple-tab-span" style="white-space:pre">        </span>NO PRIME OPTION</div><div>sync_time: 1:00:00</div></div><div><br></div><div><br></div><div>Any idea what I need to do?</div><div><br></div><div>Thanks,</div>
<div><br></div><div>      Christina</div><div><br></div><div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a href="mailto:help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div>
<div><a href="mailto:Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div><div>Voice Mail 734-741-2446 </div><div><br></div><br>