<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi Christina,<div><br></div><div>Recently, I upgraded torque to its latest version 2.5.10 on our clusters. The way our configuration setup was that our compute nodes couldn't talk to server node with the server name <a href="http://example.sit.nyu.edu">example.sit.nyu.edu</a>. They should talk to example.local. So I had to put it in /opt/torque/mom_priv/config as</div><div><br></div><div>$pbsserver example.local</div><div><br></div><div>Please check your settings the way network is setup. The other thing I did was to restart the pbs_moms on all nodes and it took care of it. Because the way it was set up, immediately after node came alive with installation it was trying to talk to server with server name variable in /opt/torque (it couldn't read the config file because it was copied after reboot). Once I rebooted pbs_mom it picked it up from config and everything was fine.</div><div><br></div><div>Sreedhar.</div><div><br></div><div><br><div><div>On Feb 9, 2012, at 2:47 PM, Christina Salls wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">Hi all,<div><br></div><div>&nbsp; &nbsp; &nbsp; I am new to Torque. &nbsp;In fact, I have just installed torque-2.5.9 (server) on the head node of a 20 node cluster and torque client and mom packages on the compute nodes. &nbsp;I used the Torque Administrator's Guide and the installation process seemed to proceed smoothly (on my second attempt). &nbsp;My first attempt was complicated by the fact that PBS was pre-installed on both the head node and server and seemed to be getting in my way because of processes that were already running and ports that were already in use. &nbsp;I removed everything I could find of the PBS installation and started from scratch. &nbsp;I am stuck at the point where I should be seeing my nodes as free, but they are showing up as down. &nbsp;I am looking for any clues in troubleshooting this problem. &nbsp;I don't know where to start. &nbsp;I am including some &nbsp;information to illustrate my setup.</div>
<div><br></div><div>Thanks in advance,</div><div><br></div><div>Christina</div><div><br></div><div>Here is the output of the pbsnodes command</div><div><br></div><div><div>[root@wings torque-packages]# pbsnodes -a</div><div>
n001</div><div>&nbsp; &nbsp; &nbsp;state = down</div><div>&nbsp; &nbsp; &nbsp;np = 1</div><div>&nbsp; &nbsp; &nbsp;ntype = cluster</div><div>&nbsp; &nbsp; &nbsp;gpus = 0</div><div><br></div><div>n002</div><div>&nbsp; &nbsp; &nbsp;state = down</div><div>&nbsp; &nbsp; &nbsp;np = 1</div><div>&nbsp; &nbsp; &nbsp;ntype = cluster</div>
<div>&nbsp; &nbsp; &nbsp;gpus = 0</div><div><br></div><div>n003</div><div>&nbsp; &nbsp; &nbsp;state = down</div><div>&nbsp; &nbsp; &nbsp;np = 1</div><div>&nbsp; &nbsp; &nbsp;ntype = cluster</div><div>&nbsp; &nbsp; &nbsp;gpus = 0</div><div><br></div><div>.....</div><div><br></div><div>It is the same for all 20 nodes. &nbsp;I truncated it for the sake of brevity.</div>
<div><br></div><div>On the headnode:</div><div><br></div><div><div>[root@wings server_priv]# ping n001</div><div>PING n001.default.domain (10.0.1.1) 56(84) bytes of data.</div><div>64 bytes from n001.default.domain (10.0.1.1): icmp_seq=1 ttl=64 time=0.193 ms</div>
<div>64 bytes from n001.default.domain (10.0.1.1): icmp_seq=2 ttl=64 time=0.189 ms</div></div><div><br></div><div><div>[root@wings server_priv]# qmgr</div><div>Max open servers: 10239</div><div>Qmgr: list server</div><div>
Server <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>server_state = Active</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduling = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>total_jobs = 0</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0&nbsp;</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>acl_hosts = <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>default_queue = batch</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>log_events = 511</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mail_from = adm</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduler_iteration = 600</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>node_check_rate = 150</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>tcp_timeout = 6</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mom_job_sync = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>pbs_version = 2.5.9</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>keep_completed = 300</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>next_job_number = 0</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>net_counter = 4 4 4</div><div><div>Qmgr: list node n001</div><div>Node n001</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state = down</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>np = 1</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>ntype = cluster</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>gpus = 0</div>
</div></div><div><div>Qmgr: print node n001</div><div>#</div><div># Create nodes and set their properties.</div><div>#</div><div>#</div><div># Create and define node n001</div><div>#</div><div>create node n001</div><div>set node n001 state = down</div>
<div>set node n001 np = 1</div><div>set node n001 ntype = cluster</div><div>set node n001 gpus = 0</div></div><div><br></div><div><br></div><div><div>[root@wings server_priv]# ps -ef | grep pbs</div><div>root &nbsp; &nbsp; &nbsp;3925 &nbsp; &nbsp; 1 &nbsp;0 Feb03 ? &nbsp; &nbsp; &nbsp; &nbsp;00:03:00 /usr/local/sbin/pbs_mom -q -d /var/spool/torque</div>
<div>root &nbsp; &nbsp; &nbsp;7056 &nbsp; &nbsp; 1 &nbsp;0 11:47 ? &nbsp; &nbsp; &nbsp; &nbsp;00:00:02 pbs_server</div><div>root &nbsp; &nbsp; 29031 &nbsp;7993 &nbsp;0 12:59 pts/29 &nbsp; 00:00:00 grep pbs</div></div><div><br></div><div><div>[root@wings torque-2.5.9]# qmgr -c 'p s'</div>
<div>#</div><div># Create queues and set their attributes.</div><div>#</div><div>#</div><div># Create and define queue batch</div><div>#</div><div>create queue batch</div><div>set queue batch queue_type = Execution</div><div>
set queue batch resources_default.nodes = 1</div><div>set queue batch resources_default.walltime = 01:00:00</div><div>set queue batch enabled = True</div><div>set queue batch started = True</div><div>#</div><div># Set server attributes.</div>
<div>#</div><div>set server scheduling = True</div><div>set server acl_hosts = <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a></div><div>set server managers = <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a></div>
<div>set server operators = <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a></div><div>set server default_queue = batch</div><div>set server log_events = 511</div><div>set server mail_from = adm</div>
<div>set server scheduler_iteration = 600</div><div>set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div><div>set server mom_job_sync = True</div><div>set server keep_completed = 300</div></div><div>
<br></div><div>From the compute nodes:</div><div><br></div><div><div>root &nbsp; &nbsp; 15891 &nbsp; &nbsp; 1 &nbsp;0 11:45 ? &nbsp; &nbsp; &nbsp; &nbsp;00:00:00 pbs_mom</div><div>root &nbsp; &nbsp; 16742 16709 &nbsp;0 13:11 pts/0 &nbsp; &nbsp;00:00:00 grep pbs</div></div><div><br></div><div>
<div>[root@n001 ~]# ping wings</div><div>PING <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a> (192.94.173.9) 56(84) bytes of data.</div><div>64 bytes from <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a> (192.94.173.9): icmp_seq=1 ttl=64 time=0.093 ms</div>
<div>64 bytes from <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a> (192.94.173.9): icmp_seq=2 ttl=64 time=0.165 ms</div></div><div><br></div><div><div>[root@n001 ~]# qmgr</div><div>Max open servers: 10239</div>
<div>Qmgr: list server</div><div>Server <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>server_state = Active</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduling = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>total_jobs = 0</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0&nbsp;</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>acl_hosts = <a href="http://wings.glerl.noaa.gov/">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>default_queue = batch</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>log_events = 511</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mail_from = adm</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduler_iteration = 600</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>node_check_rate = 150</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>tcp_timeout = 6</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mom_job_sync = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>pbs_version = 2.5.9</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>keep_completed = 300</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>next_job_number = 0</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>net_counter = 6 5 4</div></div><div><br></div><div><div>Qmgr: list node n001</div><div>Node n001</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state = down</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>np = 1</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>ntype = cluster</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>gpus = 0</div>
</div><div><div>[root@wings server_priv]# qmgr</div><div>Max open servers: 10239</div><div>Qmgr: print node n001</div><div>#</div><div># Create nodes and set their properties.</div><div>#</div><div>#</div><div># Create and define node n001</div>
<div>#</div><div>create node n001</div><div>set node n001 state = down</div><div>set node n001 np = 1</div><div>set node n001 ntype = cluster</div><div>set node n001 gpus = 0</div></div><div><br></div><div><br></div><div>
I am not sure how to proceed at this point. &nbsp;Any help would be appreciated. &nbsp;I wasn't sure what other files or output to include. &nbsp;Let me know if any other information would be useful.</div><div><br></div><div><br></div>
<div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a href="mailto:help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div><div><a href="mailto:Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div>
<div>Voice Mail 734-741-2446&nbsp;</div><div><br></div><br>
</div>
_______________________________________________<br>torqueusers mailing list<br><a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>http://www.supercluster.org/mailman/listinfo/torqueusers<br></blockquote></div><br><div>
<div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">---</div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Sreedhar Manchu<br>HPC Support Specialist<br>New York University<br>251 Mercer Street<br>New York, NY 10012-1110<br><br></div></span></div>
</div>
<br></div></body></html>