<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7652.24">
<TITLE>Nodes have state of free when running jobs</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/rtf format -->
<BR>

<P><FONT SIZE=2 FACE="Arial">Ok, </FONT>

<BR><FONT SIZE=2 FACE="Arial">Setup: Torque 2.2.1, RHEL4U5, Torque scheduler as well (for now).</FONT>
</P>

<P><FONT SIZE=2 FACE="Arial">I submit several jobs. 2 for the long queue, 3 for the medium queue. </FONT>

<BR><FONT SIZE=2 FACE="Arial">I do qstat and see one long running, one medium running and the rest queued.</FONT>

<BR><FONT SIZE=2 FACE="Arial">I also see that the long job and the medium job are running on the same set of nodes?</FONT>
</P>

<P><FONT SIZE=2 FACE="Arial">My config:</FONT>

<BR><FONT SIZE=2 FACE="Arial">---------------------------------</FONT>

<BR><FONT SIZE=2 FACE="Arial">create queue short</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short queue_type = Execution</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short Priority = 40</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short max_running = 3</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short resources_max.nodect = 4</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short resources_max.walltime = 00:15:00</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short enabled = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue short started = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">#</FONT>

<BR><FONT SIZE=2 FACE="Arial"># Create and define queue medium</FONT>

<BR><FONT SIZE=2 FACE="Arial">#</FONT>

<BR><FONT SIZE=2 FACE="Arial">create queue medium</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium queue_type = Execution</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium Priority = 30</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium max_running = 4</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium resources_max.nodect = 8</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium resources_max.walltime = 04:00:00</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium enabled = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue medium started = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">#</FONT>

<BR><FONT SIZE=2 FACE="Arial"># Create and define queue long</FONT>

<BR><FONT SIZE=2 FACE="Arial">#</FONT>

<BR><FONT SIZE=2 FACE="Arial">create queue long</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long queue_type = Execution</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long Priority = 20</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long max_running = 1</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long resources_max.nodect = 16</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long resources_max.walltime = 24:00:00</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long enabled = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">set queue long started = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">#</FONT>

<BR><FONT SIZE=2 FACE="Arial"># Set server attributes.</FONT>

<BR><FONT SIZE=2 FACE="Arial">#</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server scheduling = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server max_running = 30</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server acl_roots = root</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server default_queue = short</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server log_events = 0</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server query_other_jobs = True</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server scheduler_iteration = 60</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server node_check_rate = 150</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server tcp_timeout = 6</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server log_level = 7</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server pbs_version = 2.2.1</FONT>

<BR><FONT SIZE=2 FACE="Arial">set server submit_hosts = login1</FONT>

<BR><FONT SIZE=2 FACE="Arial">----------------------------------------------------</FONT>
</P>

<P><FONT SIZE=2 FACE="Arial">My job script:</FONT>

<BR><FONT SIZE=2 FACE="Arial">------------------</FONT>

<BR><FONT SIZE=2 FACE="Arial">#!/bin/bash</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -j oe</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -l nodes=16:ppn=2</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -W x=NACCESSPOLICY:SINGLEJOB</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -N LongTestJob</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -q long</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -o output-long.txt</FONT>

<BR><FONT SIZE=2 FACE="Arial">#PBS -V</FONT>
</P>

<P><FONT SIZE=2 FACE="Arial">cd $PBS_O_WORKDIR</FONT>

<BR><FONT SIZE=2 FACE="Arial">rm -f output.txt</FONT>

<BR><FONT SIZE=2 FACE="Arial">date</FONT>

<BR><FONT SIZE=2 FACE="Arial">mpirun --mca btl openib,self /data/andrus/hello</FONT>

<BR><FONT SIZE=2 FACE="Arial">sleep 30</FONT>

<BR><FONT SIZE=2 FACE="Arial">-------------------</FONT>

<BR><FONT SIZE=2 FACE="Arial">Same for both jobs except jobname and output file name.</FONT>
</P>

<P><FONT SIZE=2 FACE="Arial">Questions: Why are my jobs running on nodes that should be job-exclusive? Why isn't more than one medium job running at the same time?</FONT></P>
<BR>

<P><B><FONT COLOR="#000080" SIZE=2 FACE="Arial">Brian Andrus</FONT> <FONT COLOR="#FF0000" SIZE=2 FACE="Arial">perot</FONT><FONT SIZE=2 FACE="Arial">systems<BR>
</FONT><FONT COLOR="#000080" SIZE=2 FACE="Arial">Site Manager | Sr. Computer Scientist<BR>
Naval Research Lab<BR>
</FONT></B><FONT SIZE=2 FACE="Arial">7 Grace Hopper Ave, Monterey, CA&nbsp; 93943<BR>
Phone (831) 656-4839 | Fax (831) 656-4866<BR>
</FONT>
</P>

</BODY>
</HTML>