<br><br><div class="gmail_quote">On Tue, Feb 14, 2012 at 1:43 PM, Gustavo Correa <span dir="ltr">&lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="HOEnZb"><div class="h5"><br>
On Feb 14, 2012, at 1:28 PM, Christina Salls wrote:<br>
<br>
&gt;<br>
&gt;<br>
&gt; On Tue, Feb 14, 2012 at 1:24 PM, Gustavo Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt; wrote:<br>
&gt; Make sure pbs_sched [Xor alternatively maui, if you installed it] is running.<br>
&gt;<br>
&gt; Thanks for the response.<br>
&gt;<br>
&gt; It appears to be running.<br>
&gt;<br>
&gt; [root@wings etc]# ps -ef | grep pbs<br>
&gt; root      6896  6509  0 12:25 pts/24   00:00:00 grep pbs<br>
&gt; root     12576     1  0 Feb10 ?        00:00:00 pbs_sched<br>
&gt; root     25810     1  0 Feb10 ?        00:00:26 pbs_server -H admin.default.domain<br>
&gt;<br>
&gt;<br>
&gt; Also, as root, on the pbs_server computer, enable scheduling:<br>
&gt; qmgr -c &#39;set server scheduling=True&#39;<br>
&gt;<br>
&gt; And it appears that server scheduling is already set for True<br>
&gt;<br>
&gt; [root@wings etc]# qmgr<br>
&gt; Max open servers: 10239<br>
&gt; Qmgr: print server<br>
&gt; #<br>
&gt; # Create queues and set their attributes.<br>
&gt; #<br>
&gt; #<br>
&gt; # Create and define queue batch<br>
&gt; #<br>
&gt; create queue batch<br>
&gt; set queue batch queue_type = Execution<br>
&gt; set queue batch Priority = 100<br>
&gt; set queue batch max_running = 300<br>
&gt; set queue batch enabled = True<br>
&gt; set queue batch started = True<br>
&gt; #<br>
&gt; # Set server attributes.<br>
&gt; #<br>
&gt; set server scheduling = True<br>
&gt; set server acl_hosts = admin.default.domain<br>
&gt; set server acl_hosts += <a href="http://wings.glerl.noaa.gov" target="_blank">wings.glerl.noaa.gov</a><br>
&gt; set server default_queue = batch<br>
&gt; set server log_events = 511<br>
&gt; set server mail_from = adm<br>
&gt; set server scheduler_iteration = 600<br>
&gt; set server node_check_rate = 150<br>
&gt; set server tcp_timeout = 6<br>
&gt; set server mom_job_sync = True<br>
&gt; set server keep_completed = 300<br>
&gt; set server next_job_number = 8<br>
&gt;<br>
<br>
</div></div>If you made changes in the nodes file, etc, restart the server, etc, just in case:<br>
service pbs_server restart<br>
service pbs_sched restart<br>
service pbs_mom restart [this one on the compute nodes]<br>
<br></blockquote><div>I restarted the whole cluster after I put the scripts in /etc/init.d, to make sure everything came back up.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Then check the pbs_server logs [$TORQUE/server_logs]<br></blockquote><div> </div><div>This is what the server log looks like when I submit a job:</div><div><br></div><div><div>02/14/2012 15:11:28;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div>
<div>02/14/2012 15:16:28;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div><div>02/14/2012 15:18:39;0100;PBS_Server;Job;8.admin.default.domain;enqueuing into batch, state 1 hop 1</div><div>02/14/2012 15:18:39;0008;PBS_Server;Job;8.admin.default.domain;Job Queued at request of salls@admin.default.domain, owner = salls@admi</div>
<div>n.default.domain, job name = STDIN, queue = batch</div><div>02/14/2012 15:21:28;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div><div>02/14/2012 15:26:28;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div>
<div>02/14/2012 15:31:28;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0</div></div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

and the system logs in the computer where<br>
pbs_server runs [/var/log/messages].<br></blockquote><div><br></div><div>Good idea.  This is what was happening about the time I submitted the job: </div><div><br></div><div>Feb 14 15:10:00 n004 smartd[4177]: smartd has fork()ed into background mode. New PID=4177.</div>
<div>Feb 14 15:17:51 wings xinetd[3137]: EXIT: tftp status=0 pid=5898 duration=903(sec)</div><div>Feb 14 15:26:48 wings avahi-daemon[2566]: Invalid query packet.</div><div>Feb 14 15:26:48 wings avahi-daemon[2566]: Invalid query packet.</div>
<div>Feb 14 15:26:48 wings avahi-daemon[2566]: Invalid query packet.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
There may be messages in either one with hints about the actual problem.<br>
<div class="im"><br>
&gt; By the way, what is the best way to get both the server and scheduler to start at run time?<br>
&gt;<br>
<br>
</div>It depends on your OS and Linux distribution.<br>
Normally you put the pbs_sched and pbs_server scripts in /etc/init.d<br>
 [they come in the Torque &#39;contrib&#39; directory, I think, but if you installed from RPMs or<br>
other packages they may already be there].<br>
On the compute nodes you put pbs_mom there.<br>
If your pbs_server computer will also be used as a compute node, add pbs_mom there too.<br>
Then schedule them to start at init/boot time with chkconfig [which the Fedora folks<br>
bundled now into something called systemctl, in case you use Fedora].<br></blockquote><div><br></div><div>Thanks!  I found the scripts and copied them to /etc/init.d and used chkconfig to turn them on.  I am running RHEL 6.2.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
I hope it helps,<br>
Gus Correa<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
&gt; I hope this helps,<br>
&gt; Gus Correa<br>
&gt;<br>
&gt; On Feb 14, 2012, at 10:36 AM, Grigory Shamov wrote:<br>
&gt;<br>
&gt; &gt; Do you have a scheduler installed? Like, Maui, Moab?<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; --- On Tue, 2/14/12, Christina Salls &lt;<a href="mailto:christina.salls@noaa.gov">christina.salls@noaa.gov</a>&gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt; From: Christina Salls &lt;<a href="mailto:christina.salls@noaa.gov">christina.salls@noaa.gov</a>&gt;<br>
&gt; &gt; Subject: [torqueusers] Basic torque config<br>
&gt; &gt; To: &quot;Torque Users Mailing List&quot; &lt;<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>&gt;, &quot;Brian Beagan&quot; &lt;<a href="mailto:beagan@sgi.com">beagan@sgi.com</a>&gt;, &quot;John Cardenas&quot; &lt;<a href="mailto:cardenas@sgi.com">cardenas@sgi.com</a>&gt;, &quot;Jeff Hanson&quot; &lt;<a href="mailto:jhanson@sgi.com">jhanson@sgi.com</a>&gt;, &quot;Michael Saxon&quot; &lt;<a href="mailto:saxonm@sgi.com">saxonm@sgi.com</a>&gt;, &quot;help &gt;&gt; GLERL IT Help&quot; &lt;<a href="mailto:oar.glerl.it-help@noaa.gov">oar.glerl.it-help@noaa.gov</a>&gt;, <a href="mailto:keenandr@msu.edu">keenandr@msu.edu</a><br>

&gt; &gt; Date: Tuesday, February 14, 2012, 6:36 AM<br>
&gt; &gt;<br>
&gt; &gt; Hi all,<br>
&gt; &gt;<br>
&gt; &gt;       I finally made some progress but am not all the way there yet.  I changed the hostname of the server to admin, which is the hostname assigned to the interface that the compute nodes are physically connected to.  Now my pbsnodes command shows the nodes as free!!<br>

&gt; &gt;<br>
&gt; &gt; [root@wings torque]# pbsnodes -a<br>
&gt; &gt; n001.default.domain<br>
&gt; &gt;      state = free<br>
&gt; &gt;      np = 1<br>
&gt; &gt;      ntype = cluster<br>
&gt; &gt;      status = rectime=1328910309,varattr=,jobs=,state=free,netload=700143,gres=,loadave=0.02,ncpus=24,physmem=20463136kb,availmem=27835692kb,totmem=28655128kb,idletime=1502,nusers=0,nsessions=? 0,sessions=? 0,uname=Linux n001 2.6.32-131.0.15.el6.x86_64 #1 SMP Tue May 10 15:42:40 EDT 2011 x86_64,opsys=linux<br>

&gt; &gt;      gpus = 0<br>
&gt; &gt;<br>
&gt; &gt; n002.default.domain<br>
&gt; &gt;      state = free<br>
&gt; &gt;      np = 1<br>
&gt; &gt;      ntype = cluster<br>
&gt; &gt;      status = rectime=1328910310,varattr=,jobs=,state=free,netload=712138,gres=,loadave=0.00,ncpus=24,physmem=24600084kb,availmem=31894548kb,totmem=32792076kb,idletime=1510,nusers=0,nsessions=? 0,sessions=? 0,uname=Linux n002 2.6.32-131.0.15.el6.x86_64 #1 SMP Tue May 10 15:42:40 EDT 2011 x86_64,opsys=linux<br>

&gt; &gt;      gpus = 0<br>
&gt; &gt;<br>
&gt; &gt; ....For all 20 nodes.<br>
&gt; &gt;<br>
&gt; &gt; And now when I submit a job, I get a job id back, however, the jobs stays in the queue state.<br>
&gt; &gt;<br>
&gt; &gt; -bash-4.1$ ./example_submit_script_1<br>
&gt; &gt; Fri Feb 10 15:46:35 CST 2012<br>
&gt; &gt; Fri Feb 10 15:46:45 CST 2012<br>
&gt; &gt; -bash-4.1$ ./example_submit_script_1 | qsub<br>
&gt; &gt; 6.admin.default.domain<br>
&gt; &gt; -bash-4.1$ qstat<br>
&gt; &gt; Job id                    Name             User            Time Use S Queue<br>
&gt; &gt; ------------------------- ---------------- --------------- -------- - -----<br>
&gt; &gt; 4.wings                    STDIN            salls                  0 Q batch<br>
&gt; &gt; 5.wings                    STDIN            salls                  0 Q batch<br>
&gt; &gt; 6.admin                    STDIN            salls                  0 Q batch<br>
&gt; &gt;<br>
&gt; &gt; I deleted the two jobs that were created when wings was the server in case they were getting in the way<br>
&gt; &gt;<br>
&gt; &gt; [root@wings torque]# qstat<br>
&gt; &gt; Job id                    Name             User            Time Use S Queue<br>
&gt; &gt; ------------------------- ---------------- --------------- -------- - -----<br>
&gt; &gt; 6.admin                    STDIN            salls                  0 Q batch<br>
&gt; &gt; [root@wings torque]# qstat -a<br>
&gt; &gt;<br>
&gt; &gt; admin.default.domain:<br>
&gt; &gt;                                                                          Req&#39;d  Req&#39;d   Elap<br>
&gt; &gt; Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time<br>
&gt; &gt; -------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----<br>
&gt; &gt; 6.admin.default.     salls    batch    STDIN               --    --   --    --    --  Q   --<br>
&gt; &gt; [root@wings torque]#<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; I don&#39;t see anything that seems significant in the logs:<br>
&gt; &gt;<br>
&gt; &gt; Lots of entries like this in the server log:<br>
&gt; &gt; 02/14/2012 08:05:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0<br>
&gt; &gt; 02/14/2012 08:10:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0<br>
&gt; &gt; 02/14/2012 08:15:10;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 2.5.9, loglevel = 0<br>
&gt; &gt;<br>
&gt; &gt; This is the entirety of the sched_log:<br>
&gt; &gt;<br>
&gt; &gt; 02/10/2012 07:06:52;0002; pbs_sched;Svr;Log;Log opened<br>
&gt; &gt; 02/10/2012 07:06:52;0002; pbs_sched;Svr;TokenAct;Account file /var/spool/torque/sched_priv/accounting/20120210 opened<br>
&gt; &gt; 02/10/2012 07:06:52;0002; pbs_sched;Svr;main;pbs_sched startup pid 12576<br>
&gt; &gt; 02/10/2012 07:09:14;0080; pbs_sched;Svr;main;brk point 6848512<br>
&gt; &gt; 02/10/2012 15:45:04;0002; pbs_sched;Svr;Log;Log opened<br>
&gt; &gt; 02/10/2012 15:45:04;0001; pbs_sched;Svr;pbs_sched;LOG_ERROR::Address already in use (98) in main, bind<br>
&gt; &gt; 02/10/2012 15:45:04;0002; pbs_sched;Svr;die;abnormal termination<br>
&gt; &gt; 02/10/2012 15:45:04;0002; pbs_sched;Svr;Log;Log closed<br>
&gt; &gt;<br>
&gt; &gt; mom logs on the compute nodes have the same multiple entries:<br>
&gt; &gt;<br>
&gt; &gt; 02/14/2012 08:03:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0<br>
&gt; &gt; 02/14/2012 08:08:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0<br>
&gt; &gt; 02/14/2012 08:13:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0<br>
&gt; &gt; 02/14/2012 08:18:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0<br>
&gt; &gt; 02/14/2012 08:23:00;0002;   pbs_mom;Svr;pbs_mom;Torque Mom Version = 2.5.9, loglevel = 0<br>
&gt; &gt;<br>
&gt; &gt; ps looks like this:<br>
&gt; &gt;<br>
&gt; &gt; -bash-4.1$ ps -ef | grep pbs<br>
&gt; &gt; root     12576     1  0 Feb10 ?        00:00:00 pbs_sched<br>
&gt; &gt; salls    12727 26862  0 08:19 pts/0    00:00:00 grep pbs<br>
&gt; &gt; root     25810     1  0 Feb10 ?        00:00:25 pbs_server -H admin.default.domain<br>
&gt; &gt;<br>
&gt; &gt; The server and queue settings are as follows:<br>
&gt; &gt;<br>
&gt; &gt; Qmgr: list server<br>
&gt; &gt; Server admin.default.domain<br>
&gt; &gt;       server_state = Active<br>
&gt; &gt;       scheduling = True<br>
&gt; &gt;       total_jobs = 1<br>
&gt; &gt;       state_count = Transit:0 Queued:1 Held:0 Waiting:0 Running:0 Exiting:0<br>
&gt; &gt;       acl_hosts = admin.default.domain,<a href="http://wings.glerl.noaa.gov" target="_blank">wings.glerl.noaa.gov</a><br>
&gt; &gt;       default_queue = batch<br>
&gt; &gt;       log_events = 511<br>
&gt; &gt;       mail_from = adm<br>
&gt; &gt;       scheduler_iteration = 600<br>
&gt; &gt;       node_check_rate = 150<br>
&gt; &gt;       tcp_timeout = 6<br>
&gt; &gt;       mom_job_sync = True<br>
&gt; &gt;       pbs_version = 2.5.9<br>
&gt; &gt;       keep_completed = 300<br>
&gt; &gt;       next_job_number = 7<br>
&gt; &gt;       net_counter = 1 0 0<br>
&gt; &gt;<br>
&gt; &gt; Qmgr: list queue batch<br>
&gt; &gt; Queue batch<br>
&gt; &gt;       queue_type = Execution<br>
&gt; &gt;       Priority = 100<br>
&gt; &gt;       total_jobs = 1<br>
&gt; &gt;       state_count = Transit:0 Queued:1 Held:0 Waiting:0 Running:0 Exiting:0<br>
&gt; &gt;       max_running = 300<br>
&gt; &gt;       mtime = Thu Feb  9 18:22:33 2012<br>
&gt; &gt;       enabled = True<br>
&gt; &gt;       started = True<br>
&gt; &gt;<br>
&gt; &gt; Do I need to create a routing queue?  It seems like I am missing a basic element here.<br>
&gt; &gt;<br>
&gt; &gt; Thanks in advance,<br>
&gt; &gt;<br>
&gt; &gt; Christina<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Christina A. Salls<br>
&gt; &gt; GLERL Computer Group<br>
&gt; &gt; <a href="mailto:help.glerl@noaa.gov">help.glerl@noaa.gov</a><br>
&gt; &gt; Help Desk x2127<br>
&gt; &gt; <a href="mailto:Christina.Salls@noaa.gov">Christina.Salls@noaa.gov</a><br>
&gt; &gt; Voice Mail <a href="tel:734-741-2446" value="+17347412446">734-741-2446</a><br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; -----Inline Attachment Follows-----<br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; torqueusers mailing list<br>
&gt; &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; torqueusers mailing list<br>
&gt; &gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; &gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Christina A. Salls<br>
&gt; GLERL Computer Group<br>
&gt; <a href="mailto:help.glerl@noaa.gov">help.glerl@noaa.gov</a><br>
&gt; Help Desk x2127<br>
&gt; <a href="mailto:Christina.Salls@noaa.gov">Christina.Salls@noaa.gov</a><br>
&gt; Voice Mail <a href="tel:734-741-2446" value="+17347412446">734-741-2446</a><br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a href="mailto:help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div>
<div><a href="mailto:Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div><div>Voice Mail 734-741-2446 </div><div><br></div><br>