<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Sep 6, 2013 at 12:44 PM, Liam Forbes <span dir="ltr">&lt;<a href="mailto:lforbes@arsc.edu" target="_blank">lforbes@arsc.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="im">On Jul 31, 2013, at 10:29 AM, Rick McKay &lt;<a href="mailto:rmckay@adaptivecomputing.com">rmckay@adaptivecomputing.com</a>&gt; wrote:<br>

</div><div class="im">&gt; Liam,<br>
&gt;<br>
&gt; This is a bug fixed in 4.2.4. You&#39;ll find a brief description in the git log.<br>
&gt;<br>
&gt; Rick<br>
<br>
</div>Rick,<br>
<br>
I&#39;m not sure how to access the torque git log (we don&#39;t download and build torque from source).  Can you send instructions, or the specific text you believed applies?<br>
<br>
We&#39;ve installed torque 4.2.4 via Penguin Computing, but I&#39;m afraid this problem continues although with slightly different error messages.<br>
<br>
Sep  6 10:19:17 p7 Sep  6 10:19:17 pbs_mom: LOG_ERROR::pelog_err, prolog/epilog failed, file: /var/spool/torque/mom_priv/epilogue.parallel, exit: 255, nonzero p/e exit status<br>
Sep  6 10:19:17 p7 Sep  6 10:19:17 pbs_mom: LOG_ERROR::run_epilogues, parallel epilog failed<br>
Sep  6 10:19:17 p6 Sep  6 10:19:17 pbs_mom: LOG_ERROR::pelog_err, prolog/epilog failed, file: /var/spool/torque/mom_priv/epilogue.parallel, exit: 255, nonzero p/e exit status<br>
Sep  6 10:19:17 p6 Sep  6 10:19:17 pbs_mom: LOG_ERROR::run_epilogues, parallel epilog failed<br>
Sep  6 10:19:17 p5 Sep  6 10:19:17 pbs_mom: LOG_ERROR::pelog_err, prolog/epilog failed, file: /var/spool/torque/mom_priv/epilogue.parallel, exit: 255, nonzero p/e exit status<br>
Sep  6 10:19:17 p5 Sep  6 10:19:17 pbs_mom: LOG_ERROR::run_epilogues, parallel epilog failed<br>
<br>
Can you suggest anything else I should look at to track down the cause of this problem?<br>
<br>
packet:~$ rpm -qi torque<br>
Name        : torque                       Relocations: (not relocatable)<br>
Version     : 4.2.4                             Vendor: Penguin Computing, Inc.<br>
Release     : 645g0000                      Build Date: Sun 25 Aug 2013 01:20:14 PM AKDT<br>
Install Date: Fri 30 Aug 2013 04:08:39 PM AKDT      Build Host: localhost.localdomain<br>
Group       : System Environment/Daemons    Source RPM: torque-4.2.4-645g0000.src.rpm<br>
Size        : 7957523                          License: Freely redistributable<br>
Signature   : DSA/SHA1, Sun 25 Aug 2013 01:35:26 PM AKDT, Key ID 07224b0a0a1e1108<br>
Packager    : Penguin Computing, Inc. &lt;<a href="http://www.penguincomputing.com" target="_blank">http://www.penguincomputing.com</a>&gt;<br>
URL         : <a href="http://www.clusterresources.com/products/torque/" target="_blank">http://www.clusterresources.com/products/torque/</a><br>
Summary     : Torque Resource Manager (Tera-scale Open-source Resource and QUEue manager)<br>
Description :<br>
TORQUE (Tera-scale Open-source Resource and QUEue manager) is a resource manager providing control over batch jobs and distributed compute nodes<br>
<div class="im"><br>
&gt; On Thu, May 30, 2013 at 11:33 AM, Liam Forbes &lt;<a href="mailto:lforbes@arsc.edu">lforbes@arsc.edu</a>&gt; wrote:<br>
&gt; (Originally sent May 30, 2013.)<br>
&gt;<br>
&gt;&gt; As part of an upgrade from RHEL 5 to RHEL 6.4, we updated from torque 4.2.0 to 4.2.2 on our beowulf cluster (running ClusterWare from Penguin Computing).  However, when executing multi-node test jobs, we found the epilogue.parallel script is no longer being executed on the sister nodes.  Additionally, the 5 minute timeout waiting for the epilogue/epilogue.parallel to complete was being hit and the sister nodes were marked down by MOAB, but not by torque.  The only way to recover the sister nodes, that we know of, is rebooting them.  I&#39;m pretty sure this wasn&#39;t a problem for the three months that we were running torque 4.2.0 on RHEL 5.<br>

&gt;&gt;<br>
&gt;&gt; Looking at an strace of a MOM process, and the spawned child processes, on a sister node, I can not find any exec*() of the epilogue.parallel script, but I can find the execve() for the prologue.parallel.  Both scripts have the same contents, are located in the same directory, and have the same file permissions.<br>

&gt;&gt;<br>
&gt;&gt; $ sudo ls -al /var/spool/torque/mom_priv/<br>
&gt;&gt; total 32<br>
&gt;&gt; drwxr-x--x.  3 root root     4096 May 28 11:18 .<br>
&gt;&gt; drwxr-xr-x. 15 root root     4096 May 27 17:34 ..<br>
&gt;&gt; -rw-r--r--   1 root root      336 Aug  9  2012 config<br>
&gt;&gt; -rwxr-xr-x   1 root linuxman 2836 May 28 09:52 epilogue<br>
&gt;&gt; -rwxr-xr-x   1 root linuxman 2836 May 28 09:52 epilogue.parallel<br>
&gt;&gt; drwxr-x--x   2 root root     4096 Nov 21  2012 jobs<br>
&gt;&gt; -rwxr-xr-x   1 root linuxman 2836 May 28 09:52 prologue<br>
&gt;&gt; -rwxr-xr-x   1 root linuxman 2836 May 28 09:52 prologue.parallel<br>
&gt;&gt;<br>
&gt;&gt; I tried replacing the epilogue.parallel script with one that logs to syslog and then exits, but even that wasn&#39;t executed.  I&#39;m pretty sure it&#39;s not the contents of the script.<br>
&gt;&gt;<br>
&gt;&gt; Eventually, we found a workaround.  We downgraded torque to 4.1.3 on our production cluster.  Actually, we downgraded to 4.2.1, then 4.2.0, and then 4.1.3.  None of the 4.2.X versions executed the epilogue.parallel script.  4.1.3 does, although it still seems to wait the full 5 minutes for the job to clear.  Fortunately, the nodes aren&#39;t marked down in MOAB when the timeout finally occurs.  Our test cluster still has 4.2.2 installed for further testing and diagnostics.<br>

&gt;&gt;<br>
&gt;&gt; Attached are the log entries, MOM and syslog, from one occurrence of the problem.  Any assistance would be appreciated.  I&#39;m at a bit of a loss as to how to proceed tracking down this problem.<br>
<br>
Regards,<br>
-liam<br>
<br>
-There are uncountably more irrational fears than rational ones. -P. Dolan<br>
</div>Liam Forbes             Senior HPC Systems Analyst,           LPIC1, CISSP<br>
<div class=""><div class="h5">ARSC, U of AK, Fairbanks   <a href="mailto:lforbes@arsc.edu">lforbes@arsc.edu</a> <a href="tel:907-450-8618" value="+19074508618">907-450-8618</a> fax: <a href="tel:907-450-8605" value="+19074508605">907-450-8605</a><br>

<br>
_______________________________________________<br>
torqueusers mailing list<br>
<a href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a><br>
<a href="http://www.supercluster.org/mailman/listinfo/torqueusers" target="_blank">http://www.supercluster.org/mailman/listinfo/torqueusers</a><br>
</div></div></blockquote></div><br><div>I am adding Liz Chan to this thread. She is the engineer that made the fix for this problem.<br><br></div>Her fix is in 4.2.5 which will be coming out shortly.<br><br>Ken<br clear="all">
<br>-- <br>Ken Nielson<br>+1 801.717.3700 office +1 801.717.3738 fax<br>1712 S. East Bay Blvd, Suite 300  Provo, UT  84606<br><a href="http://www.adaptivecomputing.com" target="_blank">www.adaptivecomputing.com</a><br><br>

</div></div>