<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div>On 23-Jun-08, at 16:17 , Glen Beane wrote:</div><blockquote type="cite"><br><br> <div class="gmail_quote">On Mon, Jun 23, 2008 at 2:57 PM, Kamil Kisiel &lt;<a href="mailto:kamil@zymeworks.com">kamil@zymeworks.com</a>> wrote:<br> <blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid"> <div style="WORD-WRAP: break-word"> <div class="Ih2E3d"> <div> <div>On 9-Jun-08, at 14:02 , Kamil Kisiel wrote:</div><br> <blockquote type="cite"> <div>Occasionally some of our cluster nodes send out a syslog message such as:<br><br><a href="http://node071.cluster.zymeworks.com/" target="_blank">node071.cluster.zymeworks.com</a> pbs_mom: No such process (3) in resi_sum, 797: get_proc_stat<br> <br>The number after "resi_sum" is different in each message, presumably it's the PID of some process.<br><br>What does this mean, and what could be causing it?<br></div></blockquote></div><br></div> <div>So far I haven't had any reply to this. Nobody has any clue?</div></div></blockquote> <div>&nbsp;</div> <div>How often do you see this?&nbsp; I haven't had a chance to look at this in detail, but what could be happening is the process with that PID is dieing and resi_sum is being called before pbs_mom picks up the exiting process.&nbsp; If it happens often, then please provide me with as much information as you can (especially TORQUE version)</div></div></blockquote><div><br></div><div>It happens fairly often, I am receiving a few log messages per day. I haven't yet been able to determine at which portion of a job or which types of jobs cause it. We're using Torque 2.1.6</div><div><br></div><div>I also get a similar message for cput_sum</div><br><blockquote type="cite"><div class="gmail_quote"> <div>&nbsp;</div> <blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid"> <div style="WORD-WRAP: break-word"> <div><span id=""></span><br><br>I also noticed that jobs run through MPI are under-reporting the cputime used in qstat output. Is that related, or a separate issue? </div></div></blockquote> <div>&nbsp;</div> <div>Which MPI do you use, and which job launcher do you use?&nbsp; If the job launcher you use is not using TM (the task manager API provided by TORQUE, OpenPBS/PBS Pro) to spawn all of the remote processes then the cpu time will be under reported (these processes will be outside the control of TORQUE).&nbsp; If you let us know what MPI you use and what job launcher you&nbsp;use (mpiexec/mpirun)&nbsp;we can know for sure if this what is going on. In addition to the under reporting of cpu time, using a non-TM launcher can also lead to processes that aren't always cleaned up when a job crashes or is killed prematurely.</div> <div>&nbsp;</div></div></blockquote></div><br><div>We're using OpenMPI 1.2.6 built with TM support. We launch with mpirun but as far as I am aware mpirun and mpiexec are equivalent in OpenMPI.</div>
<br>

Notice of Confidentiality: The information transmitted is intended only for the
person or entity to which it is addressed and may contain confidential and/or
privileged material. Any review, re-transmission, dissemination or other use of
or taking of any action in reliance upon this information by persons or entities
other than the intended recipient is prohibited. If you received this in error
please contact the sender immediately by return electronic transmission and then
immediately delete this transmission including all attachments without copying,
distributing or disclosing the same.



<br></body></html>