<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html; charset=ISO-8859-1"
 http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
More on this:<br>
Sometimes epilogues are supposed to be called with certain arguments:<br>
<br>
#argv[1]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; job id<br>
#argv[2]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; job execution user name<br>
#argv[3]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; job execution group name<br>
#argv[4]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; job name<br>
#argv[5]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; session id<br>
#argv[6]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; list of requested resource limits<br>
#argv[7]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; list of resources used by job<br>
#argv[8]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; job execution queue<br>
#argv[9]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; job account<br>
<br>
When multiple epilogues run, sometimes it's without any of these args.&nbsp;
Is this expected behavior?<br>
thx-<br>
<br>
&nbsp;&nbsp;&nbsp; Jeremy<br>
<br>
On 3/25/2010 1:09 PM, Jeremy Enos wrote:
<blockquote cite="mid:4BABA6E5.7060008@ncsa.uiuc.edu" type="cite">
  <meta content="text/html; charset=ISO-8859-1"
 http-equiv="Content-Type">
Update:<br>
  <br>
Since my workaround to prevent multiple epilogues from running started
functioning properly, it has flushed out another major problem.&nbsp; Of the
multiple epilogues launched which race to create a lockfile or exit (my
workaround), apparently not all are equal.&nbsp; I was having terrible
intermittent problems with my epilogue sequence.&nbsp; It eventually traced
down to the fact that I use the $PBS_NODEFILE environment in the
epilogue sequence.&nbsp; Some epilogues have it, some don't!!&nbsp; ??<br>
So depending on which of the multiple epilogues got canceled or got the
lockfile, I may or may not have a failure.&nbsp; <br>
  <br>
&nbsp;&nbsp;&nbsp; Jeremy<br>
  <br>
On 3/18/2010 5:16 PM, Jeremy Enos wrote:
  <blockquote cite="mid:4BA2A63A.9050103@ncsa.uiuc.edu" type="cite">
    <meta content="text/html; charset=ISO-8859-1"
 http-equiv="Content-Type">
Update-<br>
I have my workaround working (exiting the extra conflicting epilogue
scripts) properly now.&nbsp; I still consider this a serious bug, since I
wouldn't have had to go through this runaround otherwise.&nbsp; I'm aware of
a few other people that are negatively impacted by this as well.&nbsp; I'll
post a bug when I can.<br>
    <br>
&nbsp;&nbsp;&nbsp; Jeremy<br>
    <br>
On 3/15/2010 5:38 PM, Jeremy Enos wrote:
    <blockquote cite="mid:4B9EB6FE.6060109@ncsa.uiuc.edu" type="cite">
      <meta content="text/html; charset=ISO-8859-1"
 http-equiv="Content-Type">
This seemed to kind of die here, but my problem has not.&nbsp; <br>
      <br>
If I understand correctly, the description of the design purpose
(previous epilogue attempt fails, so it tries again), then no two
epilogues for the same job should ever run simultaneously.&nbsp; Yet they
do.&nbsp; So perhaps I'm seeing a different issue than the described logic
which is intentional.<br>
      <br>
I've also tried unsuccessfully to "lock" the first epilogue in place,
and abort if that lock is already in place.&nbsp; I'm doing this via the
lockfile utility- and for whatever reason, it's not effective in
preventing multiple epilogues to launch simultaneously for the same job.<br>
      <br>
Let me explain why it's important for me that this doesn't happen- in
the epilogue, I run a health check on a GPU resource which has a
failure condition if the device is inaccessible.&nbsp; I'm getting loads of
false positive detections simply because the device <i>is</i>
inaccessible while another epilogue is running a health check already.&nbsp;
I can't seem to get effective logic in place to prevent this from
happening (I already check ps info for epilogue processes launched
against the given jobid, and it's only partially effective).&nbsp; My only
option is to disable my health check altogether to prevent the false
positive detection due to conflicting epilogues.<br>
      <br>
I want and expect a single epilogue (or epilogue.parallel) instance per
job per node, as the documentation describes.&nbsp; Why is this behavior not
considered a bug??<br>
      <br>
&nbsp;&nbsp;&nbsp; Jeremy<br>
      <br>
On 2/3/2010 5:49 PM, Jeremy Enos wrote:
      <blockquote cite="mid:4B6A0B8E.4070208@ncsa.uiuc.edu" type="cite">
        <meta content="text/html; charset=ISO-8859-1"
 http-equiv="Content-Type">
        <title></title>
Ok- so there is design behind it.&nbsp; I have two epilogues trampling each
other.&nbsp; What is giving Torque the indication that a job exit failed?&nbsp;
In other words, what constitutes a job exit failure?&nbsp; Perhaps that's
where I should be looking to correct this.<br>
thx-<br>
        <br>
&nbsp;&nbsp;&nbsp; Jeremy<br>
        <br>
        <br>
On 2/3/2010 1:28 PM, Garrick Staples wrote:
        <blockquote cite="mid:20100203192814.GN5274@polop.usc.edu"
 type="cite">
          <pre wrap="">On Wed, Feb 03, 2010 at 03:59:48AM -0600, Jeremy Enos alleged:
  </pre>
          <blockquote type="cite">
            <pre wrap="">that I shouldn't have to.  Unless of course this behavior is by design 
and not an oversight, and if that's the case- I'd be curious to know why.
    </pre>
          </blockquote>
          <pre wrap="">Because the previous job exit failed and it needs to be done again.

  </pre>
          <pre wrap=""><fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
torqueusers mailing list
<a moz-do-not-send="true" class="moz-txt-link-abbreviated"
 href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a moz-do-not-send="true" class="moz-txt-link-freetext"
 href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
  </pre>
        </blockquote>
        <pre wrap=""><fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
torqueusers mailing list
<a moz-do-not-send="true" class="moz-txt-link-abbreviated"
 href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a moz-do-not-send="true" class="moz-txt-link-freetext"
 href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
  </pre>
      </blockquote>
      <pre wrap=""><fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
torqueusers mailing list
<a moz-do-not-send="true" class="moz-txt-link-abbreviated"
 href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a moz-do-not-send="true" class="moz-txt-link-freetext"
 href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
  </pre>
    </blockquote>
    <pre wrap=""><fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
torqueusers mailing list
<a moz-do-not-send="true" class="moz-txt-link-abbreviated"
 href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a moz-do-not-send="true" class="moz-txt-link-freetext"
 href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
  </pre>
  </blockquote>
  <pre wrap="">
<fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
torqueusers mailing list
<a class="moz-txt-link-abbreviated" href="mailto:torqueusers@supercluster.org">torqueusers@supercluster.org</a>
<a class="moz-txt-link-freetext" href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</a>
  </pre>
</blockquote>
</body>
</html>