Hi all,<div><br></div><div>      I am new to Torque.  In fact, I have just installed torque-2.5.9 (server) on the head node of a 20 node cluster and torque client and mom packages on the compute nodes.  I used the Torque Administrator&#39;s Guide and the installation process seemed to proceed smoothly (on my second attempt).  My first attempt was complicated by the fact that PBS was pre-installed on both the head node and server and seemed to be getting in my way because of processes that were already running and ports that were already in use.  I removed everything I could find of the PBS installation and started from scratch.  I am stuck at the point where I should be seeing my nodes as free, but they are showing up as down.  I am looking for any clues in troubleshooting this problem.  I don&#39;t know where to start.  I am including some  information to illustrate my setup.</div>
<div><br></div><div>Thanks in advance,</div><div><br></div><div>Christina</div><div><br></div><div>Here is the output of the pbsnodes command</div><div><br></div><div><div>[root@wings torque-packages]# pbsnodes -a</div><div>
n001</div><div>     state = down</div><div>     np = 1</div><div>     ntype = cluster</div><div>     gpus = 0</div><div><br></div><div>n002</div><div>     state = down</div><div>     np = 1</div><div>     ntype = cluster</div>
<div>     gpus = 0</div><div><br></div><div>n003</div><div>     state = down</div><div>     np = 1</div><div>     ntype = cluster</div><div>     gpus = 0</div><div><br></div><div>.....</div><div><br></div><div>It is the same for all 20 nodes.  I truncated it for the sake of brevity.</div>
<div><br></div><div>On the headnode:</div><div><br></div><div><div>[root@wings server_priv]# ping n001</div><div>PING n001.default.domain (10.0.1.1) 56(84) bytes of data.</div><div>64 bytes from n001.default.domain (10.0.1.1): icmp_seq=1 ttl=64 time=0.193 ms</div>
<div>64 bytes from n001.default.domain (10.0.1.1): icmp_seq=2 ttl=64 time=0.189 ms</div></div><div><br></div><div><div>[root@wings server_priv]# qmgr</div><div>Max open servers: 10239</div><div>Qmgr: list server</div><div>
Server <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>server_state = Active</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduling = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>total_jobs = 0</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0 </div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>acl_hosts = <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>default_queue = batch</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>log_events = 511</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mail_from = adm</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduler_iteration = 600</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>node_check_rate = 150</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>tcp_timeout = 6</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mom_job_sync = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>pbs_version = 2.5.9</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>keep_completed = 300</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>next_job_number = 0</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>net_counter = 4 4 4</div><div><div>Qmgr: list node n001</div><div>Node n001</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state = down</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>np = 1</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>ntype = cluster</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>gpus = 0</div>
</div></div><div><div>Qmgr: print node n001</div><div>#</div><div># Create nodes and set their properties.</div><div>#</div><div>#</div><div># Create and define node n001</div><div>#</div><div>create node n001</div><div>set node n001 state = down</div>
<div>set node n001 np = 1</div><div>set node n001 ntype = cluster</div><div>set node n001 gpus = 0</div></div><div><br></div><div><br></div><div><div>[root@wings server_priv]# ps -ef | grep pbs</div><div>root      3925     1  0 Feb03 ?        00:03:00 /usr/local/sbin/pbs_mom -q -d /var/spool/torque</div>
<div>root      7056     1  0 11:47 ?        00:00:02 pbs_server</div><div>root     29031  7993  0 12:59 pts/29   00:00:00 grep pbs</div></div><div><br></div><div><div>[root@wings torque-2.5.9]# qmgr -c &#39;p s&#39;</div>
<div>#</div><div># Create queues and set their attributes.</div><div>#</div><div>#</div><div># Create and define queue batch</div><div>#</div><div>create queue batch</div><div>set queue batch queue_type = Execution</div><div>
set queue batch resources_default.nodes = 1</div><div>set queue batch resources_default.walltime = 01:00:00</div><div>set queue batch enabled = True</div><div>set queue batch started = True</div><div>#</div><div># Set server attributes.</div>
<div>#</div><div>set server scheduling = True</div><div>set server acl_hosts = <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div><div>set server managers = <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a></div>
<div>set server operators = <a href="mailto:salls@wings.glerl.noaa.gov">salls@wings.glerl.noaa.gov</a></div><div>set server default_queue = batch</div><div>set server log_events = 511</div><div>set server mail_from = adm</div>
<div>set server scheduler_iteration = 600</div><div>set server node_check_rate = 150</div><div>set server tcp_timeout = 6</div><div>set server mom_job_sync = True</div><div>set server keep_completed = 300</div></div><div>
<br></div><div>From the compute nodes:</div><div><br></div><div><div>root     15891     1  0 11:45 ?        00:00:00 pbs_mom</div><div>root     16742 16709  0 13:11 pts/0    00:00:00 grep pbs</div></div><div><br></div><div>
<div>[root@n001 ~]# ping wings</div><div>PING <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a> (192.94.173.9) 56(84) bytes of data.</div><div>64 bytes from <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a> (192.94.173.9): icmp_seq=1 ttl=64 time=0.093 ms</div>
<div>64 bytes from <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a> (192.94.173.9): icmp_seq=2 ttl=64 time=0.165 ms</div></div><div><br></div><div><div>[root@n001 ~]# qmgr</div><div>Max open servers: 10239</div>
<div>Qmgr: list server</div><div>Server <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>server_state = Active</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduling = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>total_jobs = 0</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0 </div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>acl_hosts = <a href="http://wings.glerl.noaa.gov">wings.glerl.noaa.gov</a></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>default_queue = batch</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>log_events = 511</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mail_from = adm</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>scheduler_iteration = 600</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>node_check_rate = 150</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>tcp_timeout = 6</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>mom_job_sync = True</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>pbs_version = 2.5.9</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>keep_completed = 300</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>next_job_number = 0</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>net_counter = 6 5 4</div></div><div><br></div><div><div>Qmgr: list node n001</div><div>Node n001</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>state = down</div>
<div><span class="Apple-tab-span" style="white-space:pre">        </span>np = 1</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>ntype = cluster</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>gpus = 0</div>
</div><div><div>[root@wings server_priv]# qmgr</div><div>Max open servers: 10239</div><div>Qmgr: print node n001</div><div>#</div><div># Create nodes and set their properties.</div><div>#</div><div>#</div><div># Create and define node n001</div>
<div>#</div><div>create node n001</div><div>set node n001 state = down</div><div>set node n001 np = 1</div><div>set node n001 ntype = cluster</div><div>set node n001 gpus = 0</div></div><div><br></div><div><br></div><div>
I am not sure how to proceed at this point.  Any help would be appreciated.  I wasn&#39;t sure what other files or output to include.  Let me know if any other information would be useful.</div><div><br></div><div><br></div>
<div><br></div>-- <br>Christina A. Salls<div>GLERL Computer Group</div><div><a href="mailto:help.glerl@noaa.gov" target="_blank">help.glerl@noaa.gov</a></div><div>Help Desk x2127</div><div><a href="mailto:Christina.Salls@noaa.gov" target="_blank">Christina.Salls@noaa.gov</a></div>
<div>Voice Mail 734-741-2446 </div><div><br></div><br>
</div>