Hi,<br><br>I am facing issue while running job on multiple nodes on torque . Please give me your suggestion.  <br><br><br>Issue :<br>When i changed  <b>#PBS -l nodes=1:ppn=2  ----&gt; </b> <b>#PBS -l nodes=2:ppn=2</b> in script , PBS_NODEFILE is not created and finally not able to run job.<br>

<br>Note : similar issues mentioned at  <br>         <b><a href="http://www.clusterresources.com/pipermail/torqueusers/2006-October/004434.html" target="_blank">http://www.clusterresources.com/pipermail/torqueusers/2006-October/004434.html</a><br>

         <span dir="ltr"></span><a href="http://www.clusterresources.com/pipermail/torqueusers/2010-January/009890.html" target="_blank">http://www.clusterresources.com/pipermail/torqueusers/2010-January/009890.html</a><br>
</b><br>
<br><b>Torque : 2.4.6 </b><br><br>1&gt; Running fine with single node.<br><br>#!/bin/sh<br><b>#PBS -l nodes=1:ppn=2</b><br>echo &quot;HOSTNAME : $HOSTNAME&quot;<br>echo &quot;PBS_NODEFILE = $PBS_NODEFILE&quot;<br>cd /disk<br>
#echo $PBS_NODEFILE &gt; shreenivas<br>
cat $PBS_NODEFILE &gt; pbsnodes<br>mpirun --hostfile $PBS_NODEFILE ./job1_100<br><br><br><b>[root@cluster disk]# cat pbsnodes <br><a href="http://cluster.hpc.org" target="_blank">cluster.hpc.org</a><br><a href="http://cluster.hpc.org" target="_blank">cluster.hpc.org</a><br>

<br></b>job is running fine with 2 processes on single node.<br><br>2&gt; changed <b>#PBS -l <span style="background-color: rgb(255, 0, 0);">nodes=1</span>:ppn=2  ----&gt; </b> <b>#PBS -l <span style="background-color: rgb(204, 0, 0);">nodes=2</span>:ppn=2</b> .....<br>
<br>#!/bin/sh<br>
<b>#PBS -l nodes=2:ppn=2</b><br>
echo &quot;HOSTNAME : $HOSTNAME&quot;<br>
echo &quot;PBS_NODEFILE = $PBS_NODEFILE&quot;<br>
cd /disk<br>
cat $PBS_NODEFILE &gt; pbsnodes<br>
mpirun --hostfile $PBS_NODEFILE ./job1_100<br><br><b>[root@cluster disk]# cat pbsnodes <br></b><b></b>there is no file created this time .....something strange ...no mpi job is running on any nodes(compute-0-5,cluster) as shown in <b>tracejob</b> output mentioned below. .<br>

<br><b>tracejob output :</b><br><br>04/20/2010 18:04:14  S    enqueuing into test, state 1 hop 1<br>04/20/2010 18:04:14  S    Job Queued at request of root@cluster, owner = root@cluster, job name<br>                          = a.sh, queue = test<br>

04/20/2010 18:04:14  S    Job Run at request of root@cluster<br>04/20/2010 18:04:14  A    queue=test<br>04/20/2010 18:04:14  A    user=root group=root jobname=a.sh queue=test ctime=1271766854<br>                          qtime=1271766854 etime=1271766854 start=1271766854 owner=root@cluster<br>

                          exec_host=compute-0-5/2+compute-0-5/1+<a href="http://cluster.hpc.org/2+cluster.hpc.org/1" target="_blank">cluster.hpc.org/2+cluster.hpc.org/1</a><br>                          Resource_List.neednodes=2:ppn=2 Resource_List.nodect=2<br>

                          Resource_List.nodes=2:ppn=2 Resource_List.walltime=01:00:00 <b><br><br>...............................This sequence repeats many time as there is no </b>PBS_NODEFILE created. MPI is not able to get nodelist.<br>

<br><br>With regards,<br>Alap<br><br><br>