<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;"><p>Do you have a scheduler installed? Like, Maui, Moab?</p><p><br></p><br>--- On <b>Tue, 2/14/12, Christina Salls <i>&lt;christina.salls@noaa.gov&gt;</i></b> wrote:<br><blockquote style="border-left: 2px solid rgb(16, 16, 255); margin-left: 5px; padding-left: 5px;"><br>From: Christina Salls &lt;christina.salls@noaa.gov&gt;<br>Subject: [torqueusers] Basic torque config<br>To: "Torque Users Mailing List" &lt;torqueusers@supercluster.org&gt;, "Brian Beagan" &lt;beagan@sgi.com&gt;, "John Cardenas" &lt;cardenas@sgi.com&gt;, "Jeff Hanson" &lt;jhanson@sgi.com&gt;, "Michael Saxon" &lt;saxonm@sgi.com&gt;, "help &gt;&gt; GLERL IT Help" &lt;oar.glerl.it-help@noaa.gov&gt;, keenandr@msu.edu<br>Date: Tuesday, February 14, 2012, 6:36 AM<br><br><div id="yiv1366277945"><div>Hi all,</div><div><br></div>&nbsp; &nbsp; &nbsp; I finally made some progress but am not all the way
 there yet. &nbsp;I changed the hostname of the server to admin, which is the hostname assigned to the interface that the compute nodes are physically connected to. &nbsp;Now my pbsnodes command shows the nodes as free!!<div>
<br><div><div>[root@wings torque]# pbsnodes -a</div><div>n001.default.domain</div><div>&nbsp; &nbsp; &nbsp;state = free</div><div>&nbsp; &nbsp; &nbsp;np = 1</div><div>&nbsp; &nbsp; &nbsp;ntype = cluster</div><div>&nbsp; &nbsp; &nbsp;status = rectime=1328910309,varattr=,jobs=,state=free,netload=700143,gres=,loadave=0.02,ncpus=24,physmem=20463136kb,availmem=27835692kb,totmem=28655128kb,idletime=1502,nusers=0,nsessions=? 0,sessions=? 0,uname=Linux n001 2.6.32-131.0.15.el6.x86_64 #1 SMP Tue May 10 15:42:40 EDT 2011 x86_64,opsys=linux</div>
<div>&nbsp; &nbsp; &nbsp;gpus = 0</div><div><br></div><div>n002.default.domain</div><div>&nbsp; &nbsp; &nbsp;state = free</div><div>&nbsp; &nbsp; &nbsp;np = 1</div><div>&nbsp; &nbsp; &nbsp;ntype = cluster</div><div>&nbsp; &nbsp; &nbsp;status = rectime=1328910310,varattr=,jobs=,state=free,netload=712138,gres=,loadave=0.00,ncpus=24,physmem=24600084kb,availmem=31894548kb,totmem=32792076kb,idletime=1510,nusers=0,nsessions=? 0,sessions=? 0,uname=Linux n002 2.6.32-131.0.15.el6.x86_64 #1 SMP Tue May 10 15:42:40 EDT 2011 x86_64,opsys=linux</div>
<div>&nbsp; &nbsp; &nbsp;gpus = 0</div></div><div>&nbsp;</div><div>....For all 20 nodes.</div><div><br></div><div>And now when I submit a job, I get a job id back, however, the jobs stays in the queue state. &nbsp;</div><div><br></div><div><div>-bash-4.1$ ./example_submit_script_1&nbsp;</div>
<div>Fri Feb 10 15:46:35 CST 2012</div><div>Fri Feb 10 15:46:45 CST 2012</div><div>-bash-4.1$ ./example_submit_script_1 | qsub</div><div>6.admin.default.domain</div><div>-bash-4.1$ qstat</div><div>Job id &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Name &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; User &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Time Use S Queue</div>
<div>------------------------- ---------------- --------------- -------- - -----</div><div>4.wings &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;STDIN &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;salls &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 Q batch &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</div><div>5.wings &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;STDIN &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;salls &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 Q batch &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</div>
<div>6.admin &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;STDIN &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;salls &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 Q batch &nbsp;</div><div><br></div><div>I deleted the two jobs that were created when wings was the server in case they were getting in the way</div><div>
<br></div><div>[root@wings torque]# qstat</div><div>Job id &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Name &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; User &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Time Use S Queue</div><div>------------------------- ---------------- --------------- -------- - -----</div><div>
6.admin &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;STDIN &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;salls &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 Q batch &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</div><div>[root@wings torque]# qstat -a</div><div><br></div><div>admin.default.domain:&nbsp;</div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Req'd &nbsp;Req'd &nbsp; Elap</div>
<div>Job ID &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Username Queue &nbsp; &nbsp;Jobname &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;SessID NDS &nbsp; TSK Memory Time &nbsp;S Time</div><div>-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----</div><div>6.admin.default. &nbsp; &nbsp; salls &nbsp; &nbsp;batch &nbsp; &nbsp;STDIN &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; -- &nbsp; &nbsp;-- &nbsp; -- &nbsp; &nbsp;-- &nbsp; &nbsp;-- &nbsp;Q &nbsp; --&nbsp;</div>
<div>[root@wings torque]#&nbsp;</div><div>&nbsp;&nbsp; &nbsp; &nbsp; &nbsp;</div></div><div><br></div><div>I don't see anything that seems significant in the logs:</div><div><br></div><div>Lots of entries like this in the server log:</div><div><div>
02/14/2012 08:05:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:10:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:15:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div>
</div><div><br></div><div>This is the entirety of the sched_log:</div><div><br></div><div><div>02/10/2012 07:06:52;0002; pbs_sched;Svr;Log;Log opened</div><div>02/10/2012 07:06:52;0002; pbs_sched;Svr;TokenAct;Account file /var/spool/torque/sched_priv/accounting/20120210 opened</div>
<div>02/10/2012 07:06:52;0002; pbs_sched;Svr;main;pbs_sched startup pid 12576</div><div>02/10/2012 07:09:14;0080; pbs_sched;Svr;main;brk point 6848512</div><div>02/10/2012 15:45:04;0002; pbs_sched;Svr;Log;Log opened</div>
<div>02/10/2012 15:45:04;0001; pbs_sched;Svr;pbs_sched;LOG_ERROR::Address already in use (98) in main, bind</div><div>02/10/2012 15:45:04;0002; pbs_sched;Svr;die;abnormal termination</div><div>02/10/2012 15:45:04;0002; pbs_sched;Svr;Log;Log closed</div>
</div><div><br></div><div>mom logs on the compute nodes have the same multiple entries:</div><div><br></div><div><div>02/14/2012 08:03:00;0002; &nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:08:00;0002; &nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>
<div>02/14/2012 08:13:00;0002; &nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:18:00;0002; &nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:23:00;0002; &nbsp; pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>
</div><div><br></div><div>ps looks like this:</div><div><br></div><div><div>-bash-4.1$ ps -ef | grep pbs</div><div>root &nbsp; &nbsp; 12576 &nbsp; &nbsp; 1 &nbsp;0 Feb10 ? &nbsp; &nbsp; &nbsp; &nbsp;00:00:00 pbs_sched</div><div>salls &nbsp; &nbsp;12727 26862 &nbsp;0 08:19 pts/0 &nbsp; &nbsp;00:00:00 grep pbs</div>
<div>root &nbsp; &nbsp; 25810 &nbsp; &nbsp; 1 &nbsp;0 Feb10 ? &nbsp; &nbsp; &nbsp; &nbsp;00:00:25 pbs_server -H admin.default.domain</div><div><br></div><div>The server and queue settings are as follows:</div><div><br></div></div><div><div>Qmgr: list server</div><div>
Server admin.default.domain</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>server_state = Active</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>scheduling = True</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>total_jobs = 1</div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>state_count = Transit:0 Queued:1 Held:0 Waiting:0 Running:0 Exiting:0&nbsp;</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>acl_hosts = admin.default.domain,<a rel="nofollow" target="_blank" href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>default_queue = batch</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>log_events = 511</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>mail_from = adm</div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>scheduler_iteration = 600</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>node_check_rate = 150</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>tcp_timeout = 6</div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>mom_job_sync = True</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>pbs_version = 2.5.9</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>keep_completed = 300</div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>next_job_number = 7</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>net_counter = 1 0 0</div><div><br></div><div>Qmgr: list queue batch</div>
<div>Queue batch</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>queue_type = Execution</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>Priority = 100</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>total_jobs = 1</div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>state_count = Transit:0 Queued:1 Held:0 Waiting:0 Running:0 Exiting:0&nbsp;</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>max_running = 300</div>
<div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>mtime = Thu Feb &nbsp;9 18:22:33 2012</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>enabled = True</div><div><span class="yiv1366277945Apple-tab-span" style="white-space:pre;">        </span>started = True</div>
</div><div><br></div><div>Do I need to create a routing queue? &nbsp;It seems like I am missing a basic element here. &nbsp;</div><div><br></div><div>Thanks in advance,</div><div><br></div><div>Christina</div><div><br></div><div><br>
</div><div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a rel="nofollow" ymailto="mailto:help.glerl@noaa.gov" target="_blank" href="/mc/compose?to=help.glerl@noaa.gov">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div><div><a rel="nofollow" ymailto="mailto:Christina.Salls@noaa.gov" target="_blank" href="/mc/compose?to=Christina.Salls@noaa.gov">Christina.Salls@noaa.gov</a></div>
<div>Voice Mail 734-741-2446&nbsp;</div><div><br></div><br>
</div>
</div><br>-----Inline Attachment Follows-----<br><br><div class="plainMail">_______________________________________________<br>torqueusers mailing list<br><a ymailto="mailto:torqueusers@supercluster.org" href="/mc/compose?to=torqueusers@supercluster.org">torqueusers@supercluster.org</a><br><a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br></div></blockquote></td></tr></table>