Hi Jason,<div><br></div><div>Thank you very much! It works!</div><div><br></div><div>Best,</div><div><br></div><div>Junjun<br><br><div class="gmail_quote">On Mon, Nov 14, 2011 at 10:26 PM, Jason Bacon <span dir="ltr">&lt;<a href="mailto:jwbacon@tds.net">jwbacon@tds.net</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><br>
I had a similar issue and got around it by simply setting up /etc/hosts<br>
on each node properly.<br>
<br>
On the multihomed head node, the hostname is bound to the external IP in<br>
/etc/hosts.  On the compute nodes, the hostname of the head node is<br>
bound to it&#39;s internal address.  Also be sure that name resolution on<br>
the compute nodes is configured to check files before DNS.<br>
<br>
No special configuration was required within torque.<br>
<br>
Regards,<br>
<br>
     -J<br>
<div><div class="h5"><br>
On 11/13/11 09:48, liu junjun wrote:<br>
&gt; Hi everyone,<br>
&gt;<br>
&gt; I am trying to install torque-3.0.2 on a multi-homed system (two NIC<br>
&gt; networks) but having an authority problem. Please read my description<br>
&gt; on the problem below. Any helps are highly appreciated!<br>
&gt;<br>
&gt; ---- System information ----<br>
&gt; OS: Ubuntu 10.10<br>
&gt; eth0: external_host_name<br>
&gt; eth1: internal_host_name<br>
&gt; hostname: internal_hostname<br>
&gt; --------------------------------------------<br>
&gt;<br>
&gt; ---- Basic Torque information ----<br>
&gt; Torque version: 3.0.2<br>
&gt; content of /var/spool/torque/server_name: internal_host_name<br>
&gt; content of /var/spool/torque/torque.cfg: SERVERHOST internal_host_name<br>
&gt;<br>
&gt; server and nodes can ping each other with internal_host_name<br>
&gt; ----------------------------------------<br>
&gt;<br>
&gt;<br>
&gt; ---- the problem -------------<br>
&gt; 1. My first try on the installation:<br>
&gt; By following the installation document at<br>
&gt; <a href="http://www.adaptivecomputing.com/resources/docs/torque/1.1installation.php" target="_blank">http://www.adaptivecomputing.com/resources/docs/torque/1.1installation.php</a>,<br>
&gt; I have problem with &quot;torque.setup&quot; script. It gave me &quot;unauthorized<br>
&gt; request&quot;. I noticed that the problem may related to my two NIC cards.<br>
&gt; Then I double checked the server_name file and also added &quot;SERVERHOST<br>
&gt; interal_host_name&quot; to torque.cfg. Unfortunately, problem sitll remains.<br>
&gt;<br>
&gt; 2. My 2nd try on the installation:<br>
&gt; I removed the first installation, and disabled eth0 which is<br>
&gt; associated with external_host_name, and recompiled torque again with<br>
&gt; the exactly same steps as that in my first try on the installation.<br>
&gt; Everything seems fine. I can create a batch queue and can submit jobs<br>
&gt; which run and terminate normally. However, once I enable eth0<br>
&gt; (external_host_name), every qmgr command returns &quot;unauthorized<br>
&gt; request&quot;. I noticed that the server recognizes me as<br>
&gt; user@external_host_name, whereas the pbs server is set as<br>
&gt; internal_host_name which is also the hostname. I guess this causes the<br>
&gt; &quot;unauthorized&quot; issue, so I made the following settings, by disabling<br>
&gt; eth0 to get the authority on the operation:<br>
&gt; ====<br>
&gt; qmgr -c &#39;s s acl_hosts += external_host_name&#39;<br>
&gt; qmgr -c &#39;s s managers += root@external_host_name&#39;<br>
&gt; qmgr -c &#39;s s operators += root@external_host_name&#39;<br>
&gt; qmgr -c &#39;s s submit_hosts += external_host_name&#39;<br>
&gt; ====<br>
&gt;<br>
&gt; After the above commands, I gain the operational access to the<br>
&gt; pbs_server even when eth0 is enabled. However,  all the submitted jobs<br>
&gt; are still remain in the Q state. The followings are part of the &#39;qstat<br>
&gt; -f&#39; command and log files on the server:<br>
&gt; ==== part of &#39;qstat -f&#39; command =====<br>
&gt; Job Id: 51.internal_host_name<br>
&gt;     Job_Name = STDIN<br>
&gt;     Job_Owner = user@exteral_host_name<br>
&gt;     job_state = Q<br>
&gt;     queue = batch<br>
&gt;     server = internal_host_name<br>
&gt;     Checkpoint = u<br>
&gt;     ctime = Sun Nov 13 19:25:12 2011<br>
&gt;     Error_Path = internal_host_name:/home/liu/STDIN.e51<br>
&gt;     Hold_Types = n<br>
&gt;     Join_Path = n<br>
&gt;     Keep_Files = n<br>
&gt;     Mail_Points = a<br>
&gt;     mtime = Sun Nov 13 19:25:12 2011<br>
&gt;     Output_Path = internal_host_name:/home/liu/STDIN.o51<br>
&gt; ===============================<br>
&gt;<br>
&gt; ==== part of pbs_server log ======<br>
&gt; 11/13/2011 19:25:05;0002;PBS_Server;Svr;PBS_Server;Torque Server<br>
&gt; Version = 3.0.2, loglevel = 0<br>
&gt; 11/13/2011 19:25:12;0100;PBS_Server;Job;51.interal_host_name;enqueuing<br>
&gt; into batch, state 1 hop 1<br>
&gt; 11/13/2011 19:25:12;0008;PBS_Server;Job;51.interal_host_name;Job<br>
&gt; Queued at request of user@external_host_name, owner =<br>
&gt; user@external_host_name, job name = STDIN, queue = batch<br>
&gt; 11/13/2011 19:25:12;0040;PBS_Server;Svr;cddlogin;Scheduler was sent<br>
&gt; the command new<br>
&gt; 11/13/2011 19:25:12;0080;PBS_Server;Req;dis_request_read;req header<br>
&gt; bad, dis error 7 (Premature end of message), type=Connect<br>
&gt; 11/13/2011 19:25:12;0080;PBS_Server;Req;req_reject;Reject reply<br>
&gt; code=15058(Bad DIS based Request Protocol MSG=cannot decode message),<br>
&gt; aux=0, type=Connect, from @<br>
&gt; 11/13/2011 19:25:12;0002;PBS_Server;Req;dis_reply_write;DIS reply<br>
&gt; failure, -1<br>
&gt; =========================<br>
&gt;<br>
&gt; ==== part of pbs_sche log ======<br>
&gt; 11/13/2011 19:25:12;0001; pbs_sched;Svr;pbs_sched;LOG_ERROR::badconn,<br>
&gt; external_host_name on port 762 unauthorized host<br>
&gt; ==========================<br>
&gt;<br>
&gt; As you can see from the above information, although exteral_host_name<br>
&gt; is set as a submit_host, all jobs are still remain in &#39;Q&#39; state<br>
&gt; because the job owner is user@external_host_name! My question is :<br>
&gt; either 1. how to make the server to accept jobs from<br>
&gt; users@external_host_name?<br>
&gt; or 2. how to make the server to recognize every submitted jobs as<br>
&gt; belonging to user@internal_host_name?<br>
&gt;<br>
&gt; Thanks in advance!<br>
&gt;<br>
&gt; Junjun<br>
&gt;<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; torqueusers mailing list<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
--<br>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<br>
Jason W. Bacon<br>
<a href="mailto:jwbacon@tds.net">jwbacon@tds.net</a><br>
<a href="http://personalpages.tds.net/~jwbacon" target="_blank">http://personalpages.tds.net/~jwbacon</a><br>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<br>
<br>
<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</font></span></blockquote></div><br></div>