I often find myself in situations, in which jobs should have enough resources and <br>should be running. I submit jobs using PBS script. Nevertheless, if the job gets<br>hung in queue for a longer time I try force them to run using &quot;runjob&quot; or &quot;qrun&quot;. It<br>
usually works provided that there are enough free resources available. <br><br>Jozef<br><br><div class="gmail_quote">2008/4/16  &lt;<a href="mailto:pat.o%27bryant@exxonmobil.com">pat.o&#39;bryant@exxonmobil.com</a>&gt;:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
Zhyang,<br>
 &nbsp; &nbsp;Here is something you might try. Code up a Torque &quot;job_script&quot; with the<br>
following &quot;#PBS&quot; control cards. Note that &quot;#PBS&quot; control cards can take the<br>
place of command line arguments and they follow the same format. &nbsp; Submit<br>
the job using &quot;qsub job_script&quot;. If you specify ppn &gt; (number of<br>
cpus/node), &nbsp;Maui (for some paramter settings) will look for a matching<br>
node with that number of cpus minimum. So for example, if you use &quot;#PBS -l<br>
nodes=8:ppn=4&quot;, Maui will look for nodes with 4 cpus. If it can&#39;t find a<br>
node like that, &nbsp;the job will remain queued. The thing to keep in mind is<br>
that Torque queues your job and Maui (in your case) actually decides where<br>
and when your job will execute. Most execution problems will be due to<br>
Maui/Moab parameter settings. Here are some links to check as well:<br>
<br>
<a href="http://www.clusterresources.com/wiki/doku.php?id=torque:2.1_job_submission" target="_blank">http://www.clusterresources.com/wiki/doku.php?id=torque:2.1_job_submission</a><br>
<a href="http://www.clusterresources.com/products/mwm/docs/a.fparameters.shtml" target="_blank">http://www.clusterresources.com/products/mwm/docs/a.fparameters.shtml</a><br>
<br>
Contents of &quot;job_script&quot;<br>
----------------------------------<br>
#!/bin/bash<br>
#PBS -N Short<br>
#PBS -l nodes=8:ppn=2,walltime=00:02:00<br>
pwd<br>
hostname<br>
<br>
End of &quot;job_script&quot;<br>
---------------------------<br>
<div class="Ih2E3d"><br>
Thanks,<br>
&nbsp;Pat<br>
<br>
J.W. (Pat) O&#39;Bryant,Jr.<br>
Business Line Infrastructure<br>
Technical Systems, HPC<br>
Office: 713-431-7022<br>
<br>
<br>
<br>
<br>
</div> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <a href="mailto:zhyang@lzu.edu">zhyang@lzu.edu</a><br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; .cn<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;To<br>
<div class="Ih2E3d"> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a href="mailto:pat.o%27bryant@exxonmobil.com">pat.o&#39;bryant@exxonmobil.com</a><br>
</div> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 04/15/08 07:19 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; cc<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; AM &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Subject<br>
 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Re: Re: [torqueusers] have enough<br>
<div><div></div><div class="Wj3C7c"> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;nodes,but job is not running<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
Hi pat<br>
<br>
I am not use the pbs control cards. I have 56 nodes, 2 cpu per node.<br>
<br>
<br>
&gt;-----原始邮件-----<br>
&gt; 发件人: <a href="mailto:pat.o%27bryant@exxonmobil.com">pat.o&#39;bryant@exxonmobil.com</a><br>
&gt; 发送时间: 2008-04-15 20:09:27<br>
&gt; 收件人: <a href="mailto:zhyang@lzu.edu.cn">zhyang@lzu.edu.cn</a><br>
&gt; 抄送:<br>
&gt; 主题: Re: [torqueusers] have enough nodes,but job is not running<br>
&gt; Zhyang,<br>
&gt;<br>
&gt; &nbsp; &nbsp; &nbsp;What do your #PBS control cards look like? Also, how many cpus/node<br>
do<br>
&gt;<br>
&gt; you have?<br>
&gt;<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Thanks,<br>
&gt;<br>
&gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Pat<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; J.W. (Pat) O&#39;Bryant,Jr.<br>
&gt;<br>
&gt; Business Line Infrastructure<br>
&gt;<br>
&gt; Technical Systems, HPC<br>
&gt;<br>
&gt; Office: 713-431-7022<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Hi<br>
&gt;<br>
&gt; &nbsp;I have a cluster include 56 nodes, and install torque and maui, but<br>
&gt;<br>
&gt; recently I found that when I use showq show 34 nodes active, user submit<br>
5<br>
&gt;<br>
&gt; nodes job, the job status is Q and not running,from showq result ,it<br>
should<br>
&gt;<br>
&gt; have enough nodes(at leaat 5 nodes),but why the job not running?<br>
&gt;<br>
&gt; I submit 2 nodes job ,job running is ok. who can help me ? Thanks!<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt;<br>
&gt; torqueusers mailing list<br>
&gt;<br>
&gt; <a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
&gt;<br>
&gt; <a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
<br>
-- &nbsp;&nbsp;&nbsp; 此致<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 敬礼<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;张洋<br>
&nbsp;&nbsp; 兰州大学通信网络中心<br>
&nbsp;&nbsp; 地址:中国甘肃兰州天水路222号<br>
&nbsp;&nbsp; 电话:(0931)8912011 &nbsp;&nbsp; 传真:(0931)8912022 &nbsp;&nbsp; 邮<br>
编:730000 &nbsp;&nbsp;Email:<a href="mailto:zhyang@lzu.edu.cn">zhyang@lzu.edu.cn</a><br>
</div></div><br>_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
<br></blockquote></div><br>