<br><br><div class="gmail_quote">On Tue, Feb 14, 2012 at 10:36 AM, Grigory Shamov <span dir="ltr">&lt;<a href="mailto:gas5x@yahoo.com">gas5x@yahoo.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<table cellspacing="0" cellpadding="0" border="0"><tbody><tr><td valign="top" style="font:inherit"><p>Do you have a scheduler installed? Like, Maui, Moab?</p></td></tr></tbody></table></blockquote><div><br></div><div>No I don&#39;t.  My plan is to run Torque on a single cluster with one head node and 20 compute nodes.  The user base is currently around 5 and may increase to 10.  We are simply trying to manage the resource (in probably a FIFO manner)  I was hoping to get away with the Torque scheduler because of the simplicity of the config.  Do you think that is possible?</div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><table cellspacing="0" cellpadding="0" border="0"><tbody><tr><td valign="top" style="font:inherit"><p><br></p><br>--- On <b>Tue, 2/14/12, Christina Salls <i>&lt;<a href="mailto:christina.salls@noaa.gov" target="_blank">christina.salls@noaa.gov</a>&gt;</i></b> wrote:<br>
<blockquote style="border-left:2px solid rgb(16,16,255);margin-left:5px;padding-left:5px"><br>From: Christina Salls &lt;<a href="mailto:christina.salls@noaa.gov" target="_blank">christina.salls@noaa.gov</a>&gt;<br>Subject: [torqueusers] Basic torque config<br>
To: &quot;Torque Users Mailing List&quot; &lt;<a href="mailto:torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a>&gt;, &quot;Brian Beagan&quot; &lt;<a href="mailto:beagan@sgi.com" target="_blank">beagan@sgi.com</a>&gt;, &quot;John Cardenas&quot; &lt;<a href="mailto:cardenas@sgi.com" target="_blank">cardenas@sgi.com</a>&gt;, &quot;Jeff Hanson&quot; &lt;<a href="mailto:jhanson@sgi.com" target="_blank">jhanson@sgi.com</a>&gt;, &quot;Michael Saxon&quot; &lt;<a href="mailto:saxonm@sgi.com" target="_blank">saxonm@sgi.com</a>&gt;, &quot;help &gt;&gt; GLERL IT Help&quot; &lt;<a href="mailto:oar.glerl.it-help@noaa.gov" target="_blank">oar.glerl.it-help@noaa.gov</a>&gt;, <a href="mailto:keenandr@msu.edu" target="_blank">keenandr@msu.edu</a><br>
Date: Tuesday, February 14, 2012, 6:36 AM<div><div class="h5"><br><br><div><div>Hi all,</div><div><br></div>      I finally made some progress but am not all the way
 there yet.  I changed the hostname of the server to admin, which is the hostname assigned to the interface that the compute nodes are physically connected to.  Now my pbsnodes command shows the nodes as free!!<div>
<br><div><div>[root@wings torque]# pbsnodes -a</div><div>n001.default.domain</div><div>     state = free</div><div>     np = 1</div><div>     ntype = cluster</div><div>     status = rectime=1328910309,varattr=,jobs=,state=free,netload=700143,gres=,loadave=0.02,ncpus=24,physmem=20463136kb,availmem=27835692kb,totmem=28655128kb,idletime=1502,nusers=0,nsessions=? 0,sessions=? 0,uname=Linux n001 2.6.32-131.0.15.el6.x86_64 #1 SMP Tue May 10 15:42:40 EDT 2011 x86_64,opsys=linux</div>

<div>     gpus = 0</div><div><br></div><div>n002.default.domain</div><div>     state = free</div><div>     np = 1</div><div>     ntype = cluster</div><div>     status = rectime=1328910310,varattr=,jobs=,state=free,netload=712138,gres=,loadave=0.00,ncpus=24,physmem=24600084kb,availmem=31894548kb,totmem=32792076kb,idletime=1510,nusers=0,nsessions=? 0,sessions=? 0,uname=Linux n002 2.6.32-131.0.15.el6.x86_64 #1 SMP Tue May 10 15:42:40 EDT 2011 x86_64,opsys=linux</div>

<div>     gpus = 0</div></div><div> </div><div>....For all 20 nodes.</div><div><br></div><div>And now when I submit a job, I get a job id back, however, the jobs stays in the queue state.  </div><div><br></div><div><div>
-bash-4.1$ ./example_submit_script_1 </div>
<div>Fri Feb 10 15:46:35 CST 2012</div><div>Fri Feb 10 15:46:45 CST 2012</div><div>-bash-4.1$ ./example_submit_script_1 | qsub</div><div>6.admin.default.domain</div><div>-bash-4.1$ qstat</div><div>Job id                    Name             User            Time Use S Queue</div>

<div>------------------------- ---------------- --------------- -------- - -----</div><div>4.wings                    STDIN            salls                  0 Q batch          </div><div>5.wings                    STDIN            salls                  0 Q batch          </div>

<div>6.admin                    STDIN            salls                  0 Q batch  </div><div><br></div><div>I deleted the two jobs that were created when wings was the server in case they were getting in the way</div><div>

<br></div><div>[root@wings torque]# qstat</div><div>Job id                    Name             User            Time Use S Queue</div><div>------------------------- ---------------- --------------- -------- - -----</div><div>

6.admin                    STDIN            salls                  0 Q batch          </div><div>[root@wings torque]# qstat -a</div><div><br></div><div>admin.default.domain: </div><div>                                                                         Req&#39;d  Req&#39;d   Elap</div>

<div>Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time</div><div>-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----</div><div>6.admin.default.     salls    batch    STDIN               --    --   --    --    --  Q   -- </div>

<div>[root@wings torque]# </div><div>        </div></div><div><br></div><div>I don&#39;t see anything that seems significant in the logs:</div><div><br></div><div>Lots of entries like this in the server log:</div><div><div>

02/14/2012 08:05:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:10:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:15:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div>

</div><div><br></div><div>This is the entirety of the sched_log:</div><div><br></div><div><div>02/10/2012 07:06:52;0002; pbs_sched;Svr;Log;Log opened</div><div>02/10/2012 07:06:52;0002; pbs_sched;Svr;TokenAct;Account file /var/spool/torque/sched_priv/accounting/20120210 opened</div>

<div>02/10/2012 07:06:52;0002; pbs_sched;Svr;main;pbs_sched startup pid 12576</div><div>02/10/2012 07:09:14;0080; pbs_sched;Svr;main;brk point 6848512</div><div>02/10/2012 15:45:04;0002; pbs_sched;Svr;Log;Log opened</div>

<div>02/10/2012 15:45:04;0001; pbs_sched;Svr;pbs_sched;LOG_ERROR::Address already in use (98) in main, bind</div><div>02/10/2012 15:45:04;0002; pbs_sched;Svr;die;abnormal termination</div><div>02/10/2012 15:45:04;0002; pbs_sched;Svr;Log;Log closed</div>

</div><div><br></div><div>mom logs on the compute nodes have the same multiple entries:</div><div><br></div><div><div>02/14/2012 08:03:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:08:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>

<div>02/14/2012 08:13:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:18:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div><div>02/14/2012 08:23:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0</div>

</div><div><br></div><div>ps looks like this:</div><div><br></div><div><div>-bash-4.1$ ps -ef | grep pbs</div><div>root     12576     1  0 Feb10 ?        00:00:00 pbs_sched</div><div>salls    12727 26862  0 08:19 pts/0    00:00:00 grep pbs</div>

<div>root     25810     1  0 Feb10 ?        00:00:25 pbs_server -H admin.default.domain</div><div><br></div><div>The server and queue settings are as follows:</div><div><br></div></div><div><div>Qmgr: list server</div><div>

Server admin.default.domain</div><div><span style="white-space:pre-wrap">        </span>server_state = Active</div><div><span style="white-space:pre-wrap">        </span>scheduling = True</div><div><span style="white-space:pre-wrap">        </span>total_jobs = 1</div>

<div><span style="white-space:pre-wrap">        </span>state_count = Transit:0 Queued:1 Held:0 Waiting:0 Running:0 Exiting:0 </div><div><span style="white-space:pre-wrap">        </span>acl_hosts = admin.default.domain,<a rel="nofollow" href="http://wings.glerl.noaa.gov" target="_blank">wings.glerl.noaa.gov</a></div>

<div><span style="white-space:pre-wrap">        </span>default_queue = batch</div><div><span style="white-space:pre-wrap">        </span>log_events = 511</div><div><span style="white-space:pre-wrap">        </span>mail_from = adm</div>
<div><span style="white-space:pre-wrap">        </span>scheduler_iteration = 600</div><div><span style="white-space:pre-wrap">        </span>node_check_rate = 150</div><div><span style="white-space:pre-wrap">        </span>tcp_timeout = 6</div>

<div><span style="white-space:pre-wrap">        </span>mom_job_sync = True</div><div><span style="white-space:pre-wrap">        </span>pbs_version = 2.5.9</div><div><span style="white-space:pre-wrap">        </span>keep_completed = 300</div>

<div><span style="white-space:pre-wrap">        </span>next_job_number = 7</div><div><span style="white-space:pre-wrap">        </span>net_counter = 1 0 0</div><div><br></div><div>Qmgr: list queue batch</div>
<div>Queue batch</div><div><span style="white-space:pre-wrap">        </span>queue_type = Execution</div><div><span style="white-space:pre-wrap">        </span>Priority = 100</div><div><span style="white-space:pre-wrap">        </span>total_jobs = 1</div>

<div><span style="white-space:pre-wrap">        </span>state_count = Transit:0 Queued:1 Held:0 Waiting:0 Running:0 Exiting:0 </div><div><span style="white-space:pre-wrap">        </span>max_running = 300</div>
<div><span style="white-space:pre-wrap">        </span>mtime = Thu Feb  9 18:22:33 2012</div><div><span style="white-space:pre-wrap">        </span>enabled = True</div><div><span style="white-space:pre-wrap">        </span>started = True</div>

</div><div><br></div><div>Do I need to create a routing queue?  It seems like I am missing a basic element here.  </div><div><br></div><div>Thanks in advance,</div><div><br></div><div>Christina</div><div><br></div><div><br>

</div><div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a rel="nofollow" href="http://mc/compose?to=help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div><div>
<a rel="nofollow" href="http://mc/compose?to=Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div>
<div>Voice Mail <a href="tel:734-741-2446" value="+17347412446" target="_blank">734-741-2446</a> </div><div><br></div><br>
</div>
</div><br></div></div>-----Inline Attachment Follows-----<br><br><div>_______________________________________________<br>torqueusers mailing list<br><a href="http://mc/compose?to=torqueusers@supercluster.org" target="_blank">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br></div></blockquote></td></tr></tbody></table><br>_______________________________________________<br>

torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a href="mailto:help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div>
<div><a href="mailto:Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div><div>Voice Mail 734-741-2446 </div><div><br></div><br>