What version of TORQUE?<br><br>Ken<br><br><div class="gmail_quote">On Thu, May 31, 2012 at 6:30 PM, Damian Montaldo <span dir="ltr">&lt;<a href="mailto:damianmontaldo@gmail.com" target="_blank">damianmontaldo@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi, I need some help with Torque and a specific option of OpenMPI.<br>
<br>
I have nodes with 4 processors each and I want to launch only one<br>
process in each node using the pernode option because I need restrict<br>
that torque is not going to queue another jobs in that node.<br>
As the manual says: On each node, launch one process (-- equivalent to<br>
-npernode 1)<br>
<br>
This is the error I got. I try to google it but a segmentation fault<br>
it&#39;s a very common error and it&#39;s very common too to found it related<br>
to the binary (executed by mpiexec) and I think that this is a<br>
specific Torque error because running mpirun with the host file and<br>
the pernode it seems to work.<br>
<br>
$ cat TEST.e37495<br>
[n52:04352] *** Process received signal ***<br>
[n52:04352] Signal: Segmentation fault (11)<br>
[n52:04352] Signal code: Address not mapped (1)<br>
[n52:04352] Failing at address: 0x50<br>
[n52:04352] [ 0] /lib/libpthread.so.0(+0xeff0) [0x2aca79ff4ff0]<br>
[n52:04352] [ 1]<br>
/usr/lib/libopen-rte.so.0(orte_util_encode_pidmap+0xbc)<br>
[0x2aca792c334c]<br>
[n52:04352] [ 2]<br>
/usr/lib/libopen-rte.so.0(orte_odls_base_default_get_add_procs_data+0x2d4)<br>
[0x2aca792d1ea4]<br>
[n52:04352] [ 3]<br>
/usr/lib/libopen-rte.so.0(orte_plm_base_launch_apps+0x11e)<br>
[0x2aca792d596e]<br>
[n52:04352] [ 4] /usr/lib/openmpi/lib/openmpi/mca_plm_tm.so(+0x1d4a)<br>
[0x2aca7b382d4a]<br>
[n52:04352] [ 5] mpiexec() [0x403aaf]<br>
[n52:04352] [ 6] mpiexec() [0x402f74]<br>
[n52:04352] [ 7] /lib/libc.so.6(__libc_start_main+0xfd) [0x2aca7a220c8d]<br>
[n52:04352] [ 8] mpiexec() [0x402e99]<br>
[n52:04352] *** End of error message ***<br>
/var/spool/torque/mom_priv/jobs/37495....SC: line 107:  4352<br>
Segmentation fault      mpiexec -verbose -pernode -np $NP python<br>
..args...<br>
[n48:15977] [[10692,0],2] routed:binomial: Connection to lifeline<br>
[[10692,0],0] lost<br>
[n49:15992] [[10692,0],1] routed:binomial: Connection to lifeline<br>
[[10692,0],0] lost<br>
[n42:16290] [[10692,0],3] routed:binomial: Connection to lifeline<br>
[[10692,0],0] lost<br>
<br>
$ qstat -f 37495<br>
Job Id: 37495<br>
    Job_Name = TEST<br>
    resources_used.cput = 00:00:00<br>
    resources_used.mem = 532kb<br>
    resources_used.vmem = 9056kb<br>
    resources_used.walltime = 00:00:01<br>
    job_state = C<br>
    queue = batch<br>
    server = n0<br>
    Checkpoint = u<br>
    ctime = Thu May 31 20:42:47 2012<br>
    exec_host = n52/3+n52/2+n52/1+n52/0+n49/3+n49/2+n49/1+n49/0+n48/3+n48/2+n4<br>
        8/1+n48/0+n42/3+n42/2+n42/1+n42/0<br>
    Hold_Types = n<br>
    Join_Path = n<br>
    Keep_Files = eo<br>
    Mail_Points = abe<br>
    mtime = Thu May 31 20:43:21 2012<br>
    Priority = 0<br>
    qtime = Thu May 31 20:42:47 2012<br>
    Rerunable = True<br>
    Resource_List.nodect = 4<br>
    Resource_List.nodes = 4:ppn=4<br>
    Resource_List.walltime = 01:00:00<br>
    session_id = 4342<br>
    Variable_List = PBS_O_LANG=es_AR.UTF-8,<br>
        PBS_O_LOGNAME=dfslezak,<br>
        PBS_O_PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games,<br>
        PBS_O_SHELL=/bin/bash,PBS_SERVER=n0,<br>
        PBS_O_QUEUE=batch,<br>
        PBS_O_HOST=n0<br>
    comment = Job started on Thu May 31 at 20:43<br>
    etime = Thu May 31 20:42:47 2012<br>
    exit_status = 0<br>
    submit_args = -l walltime=1:00:00<br>
    start_time = Thu May 31 20:43:21 2012<br>
    Walltime.Remaining = 360<br>
    start_count = 1<br>
    fault_tolerant = False<br>
    comp_time = Thu May 31 20:43:21 2012<br>
<br>
$ mpiexec --version<br>
mpiexec (OpenRTE) 1.4.2<br>
<br>
I doesn&#39;t to be related to python but this is the version.<br>
$ python --version<br>
Python 2.6.6<br>
<br>
It a Debian Linux (squeeze up to date) with this Torque version<br>
$ dpkg -l | grep torque<br>
ii  libtorque2             2.4.8+dfsg-9squeeze1   shared library for<br>
Torque client and server<br>
ii  torque-client         2.4.8+dfsg-9squeeze1   command line<br>
interface to Torque server<br>
ii  torque-common    2.4.8+dfsg-9squeeze1   Torque Queueing System shared files<br>
ii  torque-mom         2.4.8+dfsg-9squeeze1   job execution engine for<br>
Torque batch system<br>
ii  torque-scheduler   2.4.8+dfsg-9squeeze1   scheduler part of Torque<br>
ii  torque-server        2.4.8+dfsg-9squeeze1   PBS-derived batch<br>
processing server<br>
<br>
If you need more specific info (perhaps a qmgr print server?) just<br>
tell, and of course, any help would be very appreciated!<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br>