<HTML dir=ltr><HEAD><TITLE>[torqueusers] Job hang on newly Torque setup. Possible errors withhostname case sensitive. (CentOS - Rocks 5)</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText7900 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>it looks like torque thinks your server name is the jupiter.local name, not jupiter.mynetwork.com.&nbsp; </FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>is the server name defined in a file in the pbs spool directory (/var/spool/pbs or something like that)?&nbsp; if so, what happens if you change it in there?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> torqueusers-bounces@supercluster.org on behalf of Steven Truong<BR><B>Sent:</B> Sat 11/1/2008 2:36 AM<BR><B>To:</B> torqueusers@supercluster.org<BR><B>Subject:</B> [torqueusers] Job hang on newly Torque setup. Possible errors withhostname case sensitive. (CentOS - Rocks 5)<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>I learned my lession the hard way and set my head node where torque<BR>server is running.&nbsp; The fqdm is Jupiter.mynetwork.com where the<BR>followings are entries related to the head node:<BR><BR>/etc/hosts<BR>10.1.1.1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Jupiter.local Jupiter # originally frontend-0-0<BR>192.168.0.181&nbsp;&nbsp; Jupiter.mynetwork.com<BR><BR>/etc/sysconfig/network<BR>....<BR>HOSTNAME=Jupiter.mynetwork.com<BR>-----------<BR>A test user submitted a job and this job got queued and I found in<BR>torque's log indicated that "(No de<BR>fault queue specified MSG=cannot locate queue)".&nbsp; The root user try to<BR>run "qrun 1" and I would got an error message<BR>indicating something along the lines of "not being able to find/locate<BR>the mentioned job".<BR><BR>Initially in my torque server set up, I only have "set server managers<BR>= root@jupiter.mynetwork.com" and I was able to add the second one and<BR>none others.<BR><BR>This is a setup on Rocks 5 and there is a command in<BR>/opt/torque/bin/hostn and I am not sure if this one originally comes<BR>with Torque but here are what i found:<BR><BR>$ hostname<BR>Jupiter.mynetwork.com<BR>[root@Jupiter server_logs]# cd /opt/torque/bin/<BR>[root@Jupiter bin]# hostn<BR>Usage: hostn [-v] hostname<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -v turns on verbose output<BR>[root@Jupiter bin]# hostn -v jupiter<BR>primary name:&nbsp; Jupiter.local (from gethostbyname())<BR>aliases:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Jupiter<BR>&nbsp;&nbsp;&nbsp;&nbsp; address length:&nbsp; 4 bytes<BR>&nbsp;&nbsp;&nbsp;&nbsp; address:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10.1.1.1&nbsp;&nbsp; (16843018 dec)&nbsp; name:&nbsp; Jupiter.local<BR>[root@Jupiter bin]# hostn -v Jupiter<BR>primary name:&nbsp; Jupiter.local (from gethostbyname())<BR>aliases:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Jupiter<BR>&nbsp;&nbsp;&nbsp;&nbsp; address length:&nbsp; 4 bytes<BR>&nbsp;&nbsp;&nbsp;&nbsp; address:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10.1.1.1&nbsp;&nbsp; (16843018 dec)&nbsp; name:&nbsp; Jupiter.local<BR>[root@Jupiter bin]# hostn -v Jupiter.mynetwork.com<BR>primary name:&nbsp; Jupiter.mynetwork.com (from gethostbyname())<BR>aliases:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -none-<BR>&nbsp;&nbsp;&nbsp;&nbsp; address length:&nbsp; 4 bytes<BR>&nbsp;&nbsp;&nbsp;&nbsp; address:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 192.168.0.181&nbsp;&nbsp; (3036719296 dec)&nbsp; name:<BR>Jupiter.mynetwork.com<BR>[root@Jupiter bin]# hostn -v jupiter.mynetwork.com<BR>primary name:&nbsp; Jupiter.mynetwork.com (from gethostbyname())<BR>aliases:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -none-<BR>&nbsp;&nbsp;&nbsp;&nbsp; address length:&nbsp; 4 bytes<BR>&nbsp;&nbsp;&nbsp;&nbsp; address:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 192.168.0.181&nbsp;&nbsp; (3036719296 dec)&nbsp; name:<BR>Jupiter.mynetwork.com<BR>[root@Jupiter bin]# hostn -v Jupiter.local<BR>primary name:&nbsp; Jupiter.local (from gethostbyname())<BR>aliases:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Jupiter<BR>&nbsp;&nbsp;&nbsp;&nbsp; address length:&nbsp; 4 bytes<BR>&nbsp;&nbsp;&nbsp;&nbsp; address:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10.1.1.1&nbsp;&nbsp; (16843018 dec)&nbsp; name:&nbsp; Jupiter.local<BR>[root@Jupiter bin]# hostn -v jupiter.local<BR>primary name:&nbsp; Jupiter.local (from gethostbyname())<BR>aliases:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Jupiter<BR>&nbsp;&nbsp;&nbsp;&nbsp; address length:&nbsp; 4 bytes<BR>&nbsp;&nbsp;&nbsp;&nbsp; address:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 10.1.1.1&nbsp;&nbsp; (16843018 dec)&nbsp; name:&nbsp; Jupiter.local<BR><BR>------------------------------------------------------------------------------<BR>Here are a very simple config of torque<BR><BR>$ qmgr -c 'p s'<BR><BR>#<BR># Create queues and set their attributes.<BR>#<BR>#<BR># Create and define queue default<BR>#<BR>create queue default<BR>set queue default queue_type = Execution<BR>set queue default kill_delay = 90<BR>set queue default enabled = True<BR>set queue default started = True<BR>#<BR># Set server attributes.<BR>#<BR>set server acl_hosts = jupiter<BR>set server acl_hosts += Jupiter<BR>set server acl_hosts += jupiter.mynetwork.com<BR>set server acl_hosts += jupiter.local<BR>set server acl_hosts += Jupiter.local<BR>set server acl_hosts += Jupiter.mynetwork.com<BR>set server managers = root@jupiter.mynetwork.com<BR>set server managers += root@jupiter.local<BR>set server log_events = 511<BR>set server mail_from = adm<BR>set server resources_default.walltime = 336:00:00<BR>set server scheduler_iteration = 60<BR>set server node_ping_rate = 300<BR>set server node_check_rate = 600<BR>set server tcp_timeout = 6<BR>set server node_pack = False<BR>set server next_job_number = 2<BR><BR>Here are the errors message in torque's log<BR><BR>10/31/2008 22:59:23;0001;PBS_Server;Svr;PBS_Server;req_quejob, requested queue n<BR>ot found<BR>10/31/2008 22:59:23;0080;PBS_Server;Req;req_reject;Reject reply code=15037(No de<BR>fault queue specified MSG=cannot locate queue), aux=0, type=QueueJob, from struo<BR>ng@jupiter.mynetwork.com<BR>10/31/2008 23:03:27;0100;PBS_Server;Job;1.jupiter.mynetwork.com;enqueuing into<BR>&nbsp;default, state 1 hop 1<BR>10/31/2008 23:03:27;0008;PBS_Server;Job;1.jupiter.mynetwork.com;Job Queued at<BR>request of testuser@jupiter.mynetwork.com, owner = testuser@jupiter.mynetwork.<BR>com, job name = PtPd_3.N.6ML.fcc2.or, queue = default<BR>10/31/2008 23:03:52;0080;PBS_Server;Job;1.jupiter.local;Unknown Job Id<BR>10/31/2008 23:03:52;0080;PBS_Server;Req;req_reject;Reject reply code=15001(Unkno<BR>wn Job Id MSG=cannot locate job), aux=0, type=RunJob, from root@Jupiter.local<BR>10/31/2008 23:03:52;0080;PBS_Server;Req;req_reject;Reject reply code=15001(Unkno<BR>wn Job Id), aux=0, type=LocateJob, from root@Jupiter.local<BR>10/31/2008 23:05:56;0080;PBS_Server;Job;1.jupiter.local;Unknown Job Id<BR>10/31/2008 23:05:56;0080;PBS_Server;Req;req_reject;Reject reply code=15001(Unkno<BR>wn Job Id MSG=cannot locate job), aux=0, type=RunJob, from root@Jupiter.local<BR>10/31/2008 23:05:56;0080;PBS_Server;Req;req_reject;Reject reply code=15001(Unkno<BR>wn Job Id), aux=0, type=LocateJob, from root@Jupiter.local<BR>10/31/2008 23:06:05;0080;PBS_Server;Job;1.jupiter.local;Unknown Job Id<BR>10/31/2008 23:06:05;0080;PBS_Server;Req;req_reject;Reject reply code=15001(Unkno<BR>wn Job Id MSG=cannot locate job), aux=0, type=RunJob, from root@Jupiter.local<BR>10/31/2008 23:06:05;0080;PBS_Server;Req;req_reject;Reject reply code=15001(Unkno<BR>wn Job Id), aux=0, type=LocateJob, from root@Jupiter.local<BR><BR><BR>Please tell me how to fix this.<BR><BR><BR>Thank you very much.<BR>_______________________________________________<BR>torqueusers mailing list<BR>torqueusers@supercluster.org<BR><A href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</A><BR></FONT></P></DIV></BODY></HTML>