We know of this bug.<br><br>Regards<br><br>Ken<br><br><div class="gmail_quote">On Thu, Nov 22, 2012 at 9:42 PM, Delphine Ramalingom <span dir="ltr">&lt;<a href="mailto:delphine.ramalingom@univ-reunion.fr" target="_blank">delphine.ramalingom@univ-reunion.fr</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi eveybody,<br>
<br>
Some of jobs (not all) are terminating before the requested walltime<br>
when we used pbsdsh and we are getting a message in /var/spool/mail file<br>
that these jobs have exceeded the wallclock time.<br>
Is there a reason for this that I don&#39;t know ? Can you help me ?<br>
<br>
We used :<br>
- Maui - version 3.3.<br>
- Torque - version 4.0.2<br>
<br>
When I used tracejob, I have :<br>
<br>
Job: 446.metis.univ.run<br>
<br>
11/22/2012 13:51:33  S    enqueuing into pbsdsh, state 1 hop 1<br>
11/22/2012 13:51:33  S    Job Queued at request of smahajan@metis.univ.run,<br>
                           owner = smahajan@metis.univ.run, job name =<br>
                           test_20_40, queue = pbsdsh<br>
11/22/2012 13:51:33  A    queue=pbsdsh<br>
11/22/2012 13:51:35  S    Job Run at request of root@metis.univ.run<br>
11/22/2012 13:51:35  M    start_process: task started, tid 2, sid 5479, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:35  M    start_process: task started, tid 3, sid 5487, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:35  M    start_process: task started, tid 4, sid 5505, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:35  M    start_process: task started, tid 5, sid 5519, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:35  M    start_process: task started, tid 6, sid 5545, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:35  A    user=smahajan group=DSIMB jobname=test_20_40<br>
                           queue=pbsdsh ctime=1353577893 qtime=1353577893<br>
                           etime=1353577893 start=1353577895<br>
                           owner=smahajan@metis.univ.run<br>
<br>
exec_host=metis.univ.run/12+metis.univ.run/11+metis.univ.run/10+metis.univ.run/9+metis.univ.run/8+metis.univ.run/7+metis.univ.run/6+metis.univ.run/5<br>
                           Resource_List.mem=8gb<br>
Resource_List.neednodes=1:ppn=8<br>
                           Resource_List.nodect=1<br>
Resource_List.nodes=1:ppn=8<br>
                           Resource_List.walltime=24:00:00<br>
11/22/2012 13:51:36  M    start_process: task started, tid 7, sid 5594, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:36  M    start_process: task started, tid 8, sid 5667, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 13:51:36  M    start_process: task started, tid 9, sid 5749, cmd<br>
<br>
/labos/dsimb/smahajan/fold_pred/PROGRAMS/global_pbsdsh<br>
11/22/2012 19:05:07  M    scan_for_terminated: job 446.metis.univ.run task 2<br>
                           terminated, sid=5479<br>
11/22/2012 19:05:07  M    scan_for_terminated: job 446.metis.univ.run task 1<br>
                           terminated, sid=5452<br>
11/22/2012 19:05:07  M    kill_task: killing pid 5487 task 3 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:07  M    kill_task: process (pid=5487/state=Z) after sig 15<br>
11/22/2012 19:05:07  M    kill_task: killing pid 5500 task 3 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:07  M    kill_task: process (pid=5500/state=Z) after sig 15<br>
11/22/2012 19:05:07  M    kill_task: killing pid 5505 task 4 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:07  M    kill_task: process (pid=5505/state=R) after sig 15<br>
11/22/2012 19:05:07  M    kill_task: process (pid=5505/state=Z) after sig 15<br>
11/22/2012 19:05:07  M    kill_task: killing pid 5515 task 4 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:07  M    kill_task: process (pid=5515/state=R) after sig 15<br>
11/22/2012 19:05:08  M    kill_task: killing pid 5519 task 5 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:08  M    kill_task: process (pid=5519/state=S) after sig 15<br>
11/22/2012 19:05:08  M    kill_task: process (pid=5519/state=Z) after sig 15<br>
11/22/2012 19:05:08  M    kill_task: killing pid 5537 task 5 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:08  M    kill_task: process (pid=5537/state=R) after sig 15<br>
11/22/2012 19:05:08  M    kill_task: killing pid 5545 task 6 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:08  M    kill_task: process (pid=5545/state=R) after sig 15<br>
11/22/2012 19:05:09  M    kill_task: process (pid=5545/state=Z) after sig 15<br>
11/22/2012 19:05:09  M    kill_task: killing pid 5572 task 6 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:09  M    kill_task: process (pid=5572/state=R) after sig 15<br>
11/22/2012 19:05:09  M    kill_task: killing pid 5594 task 7 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:09  M    kill_task: process (pid=5594/state=S) after sig 15<br>
11/22/2012 19:05:09  M    kill_task: process (pid=5594/state=Z) after sig 15<br>
11/22/2012 19:05:09  M    kill_task: killing pid 5633 task 7 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:09  M    kill_task: process (pid=5633/state=R) after sig 15<br>
11/22/2012 19:05:09  M    kill_task: killing pid 5667 task 8 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:09  M    kill_task: process (pid=5667/state=S) after sig 15<br>
11/22/2012 19:05:10  M    kill_task: process (pid=5667/state=Z) after sig 15<br>
11/22/2012 19:05:10  M    kill_task: killing pid 5715 task 8 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:10  M    kill_task: process (pid=5715/state=R) after sig 15<br>
11/22/2012 19:05:10  M    kill_task: killing pid 5749 task 9 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:10  M    kill_task: process (pid=5749/state=S) after sig 15<br>
11/22/2012 19:05:10  M    kill_task: process (pid=5749/state=Z) after sig 15<br>
11/22/2012 19:05:10  M    kill_task: killing pid 5807 task 9 gracefully<br>
with sig<br>
                           15<br>
11/22/2012 19:05:10  M    kill_task: process (pid=5807/state=R) after sig 15<br>
11/22/2012 19:05:11  S    Not sending email: User does not want mail of this<br>
                           type.<br>
11/22/2012 19:05:11  S    Exit_status=2<br>
11/22/2012 19:05:11  S    dequeuing from pbsdsh, state COMPLETE<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 3<br>
                           terminated, sid=5487<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 4<br>
                           terminated, sid=5505<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 5<br>
                           terminated, sid=5519<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 6<br>
                           terminated, sid=5545<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 7<br>
                           terminated, sid=5594<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 8<br>
                           terminated, sid=5667<br>
11/22/2012 19:05:11  M    scan_for_terminated: job 446.metis.univ.run task 9<br>
                           terminated, sid=5749<br>
11/22/2012 19:05:11  M    obit sent to server<br>
11/22/2012 19:05:11  S    on_job_exit valid pjob: 0x7f9a7c0ae6e0<br>
(substate=50)<br>
11/22/2012 19:05:11  M    removed job script<br>
11/22/2012 19:05:11  A    user=smahajan group=DSIMB jobname=test_20_40<br>
                           queue=pbsdsh ctime=1353577893 qtime=1353577893<br>
                           etime=1353577893 start=1353577895<br>
                           owner=smahajan@metis.univ.run<br>
<br>
exec_host=metis.univ.run/12+metis.univ.run/11+metis.univ.run/10+metis.univ.run/9+metis.univ.run/8+metis.univ.run/7+metis.univ.run/6+metis.univ.run/5<br>
                           Resource_List.mem=8gb<br>
Resource_List.neednodes=1:ppn=8<br>
                           Resource_List.nodect=1<br>
Resource_List.nodes=1:ppn=8<br>
                           Resource_List.walltime=24:00:00 session=5452<br>
                           end=1353596711 Exit_status=2<br>
<br>
Regards,<br>
Delphine<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</blockquote></div><br>