Hi everyone,<div><br></div><div>I am trying to install torque-3.0.2 on a multi-homed system (two NIC networks) but having an authority problem. Please read my description on the problem below. Any helps are highly appreciated!</div>
<div><br></div><div>---- System information ----</div><div>
OS: Ubuntu 10.10</div><div>eth0: external_host_name</div><div>eth1: internal_host_name</div><div>hostname: internal_hostname</div><div>--------------------------------------------</div><div><br></div><div>---- Basic Torque information ----</div>
<div>Torque version: 3.0.2</div><div>content of /var/spool/torque/server_name: internal_host_name</div><div>content of /var/spool/torque/torque.cfg: SERVERHOST internal_host_name</div><div><br></div><div>server and nodes can ping each other with internal_host_name</div>
<div>
----------------------------------------</div><div><br></div><div><br></div><div>---- the problem -------------</div><div>1. My first try on the installation:</div><div>By following the installation document at <a href="http://www.adaptivecomputing.com/resources/docs/torque/1.1installation.php" target="_blank">http://www.adaptivecomputing.com/resources/docs/torque/1.1installation.php</a>, I have problem with &quot;torque.setup&quot; script. It gave me &quot;unauthorized request&quot;. I noticed that the problem may related to my two NIC cards. Then I double checked the server_name file and also added &quot;SERVERHOST interal_host_name&quot; to torque.cfg. Unfortunately, problem sitll remains.</div>

<div><br></div><div>2. My 2nd try on the installation:</div><div>I removed the first installation, and disabled eth0 which is associated with external_host_name, and recompiled torque again with the exactly same steps as that in my first try on the installation. Everything seems fine. I can create a batch queue and can submit jobs which run and terminate normally. However, once I enable eth0 (external_host_name), every qmgr command returns &quot;unauthorized request&quot;. I noticed that the server recognizes me as user@external_host_name, whereas the pbs server is set as internal_host_name which is also the hostname. I guess this causes the &quot;unauthorized&quot; issue, so I made the following settings, by disabling eth0 to get the authority on the operation:</div>

<div>====</div><div>qmgr -c &#39;s s acl_hosts += external_host_name&#39;</div><div>qmgr -c &#39;s s managers += root@external_host_name&#39;</div><div>qmgr -c &#39;s s operators += root@external_host_name&#39;</div><div>

qmgr -c &#39;s s submit_hosts += external_host_name&#39;</div><div>====</div><div><br></div><div>After the above commands, I gain the operational access to the pbs_server even when eth0 is enabled. However,  all the submitted jobs are still remain in the Q state. The followings are part of the &#39;qstat -f&#39; command and log files on the server:</div>

<div><div>==== part of &#39;qstat -f&#39; command =====</div><div>Job Id: 51.internal_host_name</div><div>    Job_Name = STDIN</div><div>    Job_Owner = user@exteral_host_name</div><div>    job_state = Q</div><div>    queue = batch</div>

<div>    server = internal_host_name</div><div>    Checkpoint = u</div><div>    ctime = Sun Nov 13 19:25:12 2011</div><div>    Error_Path = internal_host_name:/home/liu/STDIN.e51</div><div>    Hold_Types = n</div><div>    Join_Path = n</div>

<div>    Keep_Files = n</div><div>    Mail_Points = a</div><div>    mtime = Sun Nov 13 19:25:12 2011</div><div>    Output_Path = internal_host_name:/home/liu/STDIN.o51</div></div><div>===============================</div>

<div><br></div><div>==== part of pbs_server log ======</div><div><div>11/13/2011 19:25:05;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 3.0.2, loglevel = 0</div><div>11/13/2011 19:25:12;0100;PBS_Server;Job;51.interal_host_name;enqueuing into batch, state 1 hop 1</div>

<div>11/13/2011 19:25:12;0008;PBS_Server;Job;51.interal_host_name;Job Queued at request of user@external_host_name, owner = user@external_host_name, job name = STDIN, queue = batch</div><div>11/13/2011 19:25:12;0040;PBS_Server;Svr;cddlogin;Scheduler was sent the command new</div>

<div>11/13/2011 19:25:12;0080;PBS_Server;Req;dis_request_read;req header bad, dis error 7 (Premature end of message), type=Connect</div><div>11/13/2011 19:25:12;0080;PBS_Server;Req;req_reject;Reject reply code=15058(Bad DIS based Request Protocol MSG=cannot decode message), aux=0, type=Connect, from @</div>

<div>11/13/2011 19:25:12;0002;PBS_Server;Req;dis_reply_write;DIS reply failure, -1</div></div><div>=========================</div><div><br></div><div>==== part of pbs_sche log ======</div><div>11/13/2011 19:25:12;0001; pbs_sched;Svr;pbs_sched;LOG_ERROR::badconn, external_host_name on port 762 unauthorized host</div>

<div>==========================</div><div><br></div><div>As you can see from the above information, although exteral_host_name is set as a submit_host, all jobs are still remain in &#39;Q&#39; state because the job owner is user@external_host_name! My question is :</div>
<div>either 1. how to make the server to accept jobs from users@external_host_name?</div><div>or 2. how to make the server to recognize every submitted jobs as belonging to user@internal_host_name?</div><div><br></div><div>
Thanks in advance!</div><div><br></div><div>Junjun</div>