Check if pbs_sched is running or not. Also check that iptables should be turned off on pbs_server<br><br><div class="gmail_quote">On Mon, Dec 15, 2008 at 10:43 PM, Adrian Sevcenco <span dir="ltr">&lt;Adrian.Sevcenco@cern.ch&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="Ih2E3d">Greenseid, Joseph M. wrote:<br>
&gt; what scheduler are you using? &nbsp;are you using torque&#39;s scheduler, or<br>
&gt; maui, or something else?<br>
</div>Hi,<br>
I am using maui .. do you think that the problem can be there?<br>
Now i see that when i try to restart maui.cfg i have :<br>
ERROR: &nbsp; &nbsp;lost connection to server<br>
ERROR: &nbsp; &nbsp;cannot request service (status)<br>
i have this as maui.cfg<br>
[root@grid01 maui]# cat maui.cfg<br>
# MAUI configuration example<br>
<br>
SERVERHOST &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a href="http://grid01.spacescience.ro" target="_blank">grid01.spacescience.ro</a><br>
ADMIN1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;root<br>
ADMIN3 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;edginfo rgma edguser<br>
ADMINHOSTS &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a href="http://grid01.spacescience.ro" target="_blank">grid01.spacescience.ro</a><br>
RMCFG[base] &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; TYPE=PBS<br>
SERVERPORT &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;40559<br>
SERVERMODE &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;NORMAL<br>
<br>
# Set PBS server polling interval. If you have short # queues or/and<br>
jobs it is worth to set a short interval. (10 seconds)<br>
<br>
RMPOLLINTERVAL &nbsp; &nbsp; &nbsp; &nbsp;00:00:10<br>
<br>
# a max. 10 MByte log file in a logical location<br>
<br>
LOGFILE &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; /var/log/maui.log<br>
LOGFILEMAXSIZE &nbsp; &nbsp; &nbsp; &nbsp;10000000<br>
LOGLEVEL &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;1<br>
<br>
# Set the delay to 1 minute before Maui tries to run a job again, # in<br>
case it failed to run the first time.<br>
# The default value is 1 hour.<br>
<br>
DEFERTIME &nbsp; &nbsp; &nbsp; 00:01:00<br>
<br>
# Necessary for MPI grid jobs<br>
ENABLEMULTIREQJOBS TRUE<br>
<br>
Any idea anyone ?<br>
Thanks,<br>
<font color="#888888">Adrian<br>
</font><div><div></div><div class="Wj3C7c"><br>
<br>
&gt; --Joe<br>
&gt;<br>
&gt; ------------------------------------------------------------------------<br>
&gt; *From:* <a href="mailto:torqueusers-bounces@supercluster.org">torqueusers-bounces@supercluster.org</a> on behalf of Adrian Sevcenco<br>
&gt; *Sent:* Mon 12/15/2008 10:40 AM<br>
&gt; *To:* <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt; *Subject:* [torqueusers] jobs stuck in Q<br>
&gt;<br>
&gt; Hi,<br>
&gt; I have a server in which jobs are stucked in queue. i have this output<br>
&gt; from qstat -f :<br>
&gt; Job Id: <a href="http://2.grid01.spacescience.ro" target="_blank">2.grid01.spacescience.ro</a><br>
&gt; &nbsp; &nbsp; Job_Name = STDIN<br>
&gt; &nbsp; &nbsp; Job_Owner = <a href="mailto:alice001@grid01.spacescience.ro">alice001@grid01.spacescience.ro</a><br>
&gt; &nbsp; &nbsp; job_state = Q<br>
&gt; &nbsp; &nbsp; queue = alice<br>
&gt; &nbsp; &nbsp; server = <a href="http://grid01.spacescience.ro" target="_blank">grid01.spacescience.ro</a><br>
&gt; &nbsp; &nbsp; Checkpoint = u<br>
&gt; &nbsp; &nbsp; ctime = Mon Dec 15 17:19:39 2008<br>
&gt; &nbsp; &nbsp; Error_Path = grid01.spacescience.ro:/home/alice001/STDIN.e2<br>
&gt; &nbsp; &nbsp; Hold_Types = n<br>
&gt; &nbsp; &nbsp; Join_Path = n<br>
&gt; &nbsp; &nbsp; Keep_Files = n<br>
&gt; &nbsp; &nbsp; Mail_Points = a<br>
&gt; &nbsp; &nbsp; mtime = Mon Dec 15 17:20:22 2008<br>
&gt; &nbsp; &nbsp; Output_Path = grid01.spacescience.ro:/home/alice001/STDIN.o2<br>
&gt; &nbsp; &nbsp; Priority = 0<br>
&gt; &nbsp; &nbsp; qtime = Mon Dec 15 17:20:49 2008<br>
&gt; &nbsp; &nbsp; Rerunable = True<br>
&gt; &nbsp; &nbsp; Resource_List.cput = 48:00:00<br>
&gt; &nbsp; &nbsp; Resource_List.walltime = 72:00:00<br>
&gt; &nbsp; &nbsp; Variable_List = PBS_O_HOME=/home/alice001,PBS_O_LANG=en_US.UTF-8,<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; PBS_O_LOGNAME=alice001,<br>
&gt;<br>
&gt; PBS_O_PATH=/usr/kerberos/bin:/opt/edg/bin:/opt/glite/bin:/opt/lcg/bin<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; :/usr/local/bin:/bin:/usr/bin:/usr/X11R6/bin:/home/alice001/bin,<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; PBS_O_MAIL=/var/spool/mail/alice001,PBS_O_SHELL=/bin/bash,<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; PBS_SERVER=<a href="http://grid01.spacescience.ro" target="_blank">grid01.spacescience.ro</a>,PBS_O_HOST=<a href="http://grid01.spacescience.ro" target="_blank">grid01.spacescience.ro</a>,<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; PBS_O_WORKDIR=/home/alice001,PBS_O_QUEUE=alice<br>
&gt; &nbsp; &nbsp; etime = Mon Dec 15 17:20:49 2008<br>
&gt; &nbsp; &nbsp; submit_args = -q alice<br>
&gt;<br>
&gt; and a momctl on a wn gives me this :<br>
&gt; [root@grid01 ~]# momctl -d 3 -h wn01<br>
&gt;<br>
&gt; Host: <a href="http://wn01.spacescience.ro/wn01.spacescience.ro" target="_blank">wn01.spacescience.ro/wn01.spacescience.ro</a> &nbsp; Version:<br>
&gt; 2.3.0-snap.200801151629 &nbsp; PID: 7248<br>
&gt; Server[0]: <a href="http://grid01.spacescience.ro" target="_blank">grid01.spacescience.ro</a> (<a href="http://172.16.0.254" target="_blank">172.16.0.254</a>)<br>
&gt; &nbsp; Init Msgs Received: &nbsp; &nbsp; 0 hellos/1 cluster-addrs<br>
&gt; &nbsp; Init Msgs Sent: &nbsp; &nbsp; &nbsp; &nbsp; 1 hellos<br>
&gt; &nbsp; Last Msg From Server: &nbsp; 284242 seconds (CLUSTER_ADDRS)<br>
&gt; &nbsp; Last Msg To Server: &nbsp; &nbsp; 21 seconds<br>
&gt; HomeDirectory: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;/var/spool/pbs/mom_priv<br>
&gt; stdout/stderr spool directory: &#39;/var/spool/pbs/spool/&#39; (1072793 blocks<br>
&gt; available)<br>
&gt; NOTE: &nbsp;syslog enabled<br>
&gt; MOM active: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 284244 seconds<br>
&gt; Server Update Interval: 45 seconds<br>
&gt; LogLevel: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 (use SIGUSR1/SIGUSR2 to adjust)<br>
&gt; Communication Model: &nbsp; &nbsp;RPP<br>
&gt; MemLocked: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;TRUE &nbsp;(mlock)<br>
&gt; TCP Timeout: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;20 seconds<br>
&gt; Prolog: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; /var/spool/pbs/mom_priv/prologue (disabled)<br>
&gt; Alarm Time: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 of 10 seconds<br>
&gt; Trusted Client List:<br>
&gt; <a href="http://172.16.0.5" target="_blank">172.16.0.5</a>,<a href="http://172.16.0.4" target="_blank">172.16.0.4</a>,<a href="http://172.16.0.3" target="_blank">172.16.0.3</a>,<a href="http://172.16.0.2" target="_blank">172.16.0.2</a>,<a href="http://172.16.0.254" target="_blank">172.16.0.254</a>,<a href="http://172.16.0.1" target="_blank">172.16.0.1</a>,<a href="http://127.0.0.1" target="_blank">127.0.0.1</a><br>

&gt; Copy Command: &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; /usr/bin/scp -rpB<br>
&gt; NOTE: &nbsp;no local jobs detected<br>
&gt;<br>
&gt; diagnostics complete<br>
&gt;<br>
&gt; What can be wrong and where should i look into ?<br>
&gt; Thanks for any help,<br>
&gt; Adrian<br>
&gt;<br>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Regards--<br>Rishi Pathak<br>Pune-Maharastra<br>