This was great Craig! I would never tell that the code might be buggy. <br>I copied the recompiled binary to all my nodes (I don&#39;t still have NFS).<br>Now, when I run the code like this:<br><br>q-parser@f135-3:~$ mpirun -np 7 --hostfile zoznam test_app<br>
0(f135-4): We have 7 processors<br>0(f135-4): Hello 1! Processor 1 (f135-5) reporting for duty<br><br>0(f135-4): Hello 2! Processor 2 (f135-6) reporting for duty<br><br>0(f135-4): Hello 3! Processor 3 (f135-7) reporting for duty<br>
<br>0(f135-4): Hello 4! Processor 4 (f135-8) reporting for duty<br><br>0(f135-4): Hello 5! Processor 5 (f135-9) reporting for duty<br><br>0(f135-4): Hello 6! Processor 6 (f135-11) reporting for duty<br><br>It seems to me that one processor is still lost, but I have no bug info with this.<br>
However, when I run it using torque, the job seems to be hung. &#39;showq&#39; shows<br>that the job is running but never finishes. <br><br>q-parser@f135-3:~$ showq<br>ACTIVE JOBS--------------------<br>JOBNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; USERNAME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STATE&nbsp; PROC&nbsp;&nbsp; REMAINING&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; STARTTIME<br>
<br>113&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; q-parser&nbsp;&nbsp;&nbsp; Running&nbsp;&nbsp;&nbsp;&nbsp; 7&nbsp;&nbsp;&nbsp; 00:49:29&nbsp; Thu Feb 21 17:56:04<br><br>&nbsp;&nbsp;&nbsp;&nbsp; 1 Active Job&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7 of&nbsp;&nbsp; 22 Processors Active (31.82%)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4 of&nbsp;&nbsp; 11 Nodes Active&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (36.36%)<br>...<br>
<br>My script looks like this:<br><br>#!/bin/bash<br><br>#PBS -N test_job<br>#PBS -q batch<br>#PBS -l nodes=7<br>#PBS -l cput=00:02:00<br><br>cd<br>mpirun ./test_app<br>exit 0<br><br>All my nodes are running now. qstat -f tells me that the job was assigned to these hosts:<br>
<br>&nbsp;&nbsp;&nbsp; exec_host = f135-15/1+f135-15/0+f135-14/1+f135-14/0+f135-13/1+f135-13/0+f1<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 35-12/0<br><br>I&#39;m thankful for your time and effort. <br><br><br><div class="gmail_quote">On Thu, Feb 21, 2008 at 5:37 PM, Craig West &lt;<a href="mailto:cwest@astro.umass.edu">cwest@astro.umass.edu</a>&gt; wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
Jozef,<br>
<br>
It is buggy code. The simple problem is that idstr is only 32 chars.<br>
When you sprintf the long string at line 45 of the code you are writing<br>
past the end of the idstr buffer, segfaults and like will occur. Change<br>
the size of idstr to be 64 and try again. Don&#39;t go too much bigger than<br>
64 as you will cause problems with BUFSIZE.<br>
<br>
I should note that it crashed here when I ran it, works fine with the<br>
idstr[64].<br>
<div><div></div><div class="Wj3C7c"><br>
&gt; If anybody might know of anything that could help me I&#39;m listening.<br>
<br>
</div></div><font color="#888888">Craig.<br>
</font></blockquote></div><br>