<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; ">
<div>
<div>Dear All -</div>
<div><br>
</div>
<div>We have a situation where a multinode job was submitted in moab and later cancelled by the user.&nbsp;</div>
<div><br>
</div>
<div>For sake of argument, lets say the allocated nodes were:&nbsp;[qnode0441:8][qnode0245:8][qnode0250:8]....</div>
<div><br>
</div>
<div>We found that mom superior (qnode0441) was unresponsive resulting in repetitive 5&nbsp;minute (300 second/TCP) timeouts for Moab, which was trying to start a job using qnode0441. &nbsp;&nbsp;This behavior is also observed when running any momctl command (local or remotely).
 &nbsp;&nbsp;For example, running momctl -q loadave would hang for 5 minutes, error about not being able to run &nbsp;the command, and then retry (up to 5 times i believe). &nbsp;</div>
<div><br>
</div>
<div>We tried issuing a restart to trqauthd and pbs_mom on mother superior. &nbsp;We even tried issuing a network restart followed by trqauthd and pbs_mom restarts. None of these &nbsp;could get the mom on this node to respond.&nbsp;We observed through the pbs_mom logs that
 qnode0441 was apparently fixated on maintaining &nbsp;communication with qnode0245 which we found was no longer on the network. &nbsp;&nbsp;We rebooted qnode0245. &nbsp;After the node came back on the network, and its mom started, qnode0441 stopped obsessing about &nbsp;communications
 and the mom became responsive again.</div>
<div><br>
</div>
<div>Several permutations of this behavior have been witnessed across our 800 node cluster. &nbsp;</div>
<div><br>
</div>
<div>Previous to this we were running a 2.5.x version of torque and when a sister died we wouldn't witness &nbsp;the hangs &nbsp;in moab. &nbsp;&nbsp;If this didn't result in hangs to the scheduler it wouldn't be a big deal. &nbsp;&nbsp;And i'm not really convinced &nbsp;this is a moab issue
 because it's the mother superior that appears to be &nbsp;hanging when losing a sister. &nbsp;</div>
<div><br>
</div>
<div>Are there any thoughts here? &nbsp;We've tried adjusting timeouts, node checks, reservation depth, etc, etc. &nbsp;We're at a loss. &nbsp;It just seems that mother superior is having a hard time letting go (pun sort of&nbsp;</div>
<div>intended).</div>
<div><br>
</div>
<div>Thank you,</div>
<div>&nbsp; --Joe</div>
</div>
<div><br>
</div>
<div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><b><span style="font-size: 9pt; font-family: Arial, sans-serif; ">Joseph Paris</span></b></span><span style="font-size: 10.5pt; "><o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><b><span style="font-size: 9pt; font-family: Arial, sans-serif; ">Associate Director for Research Computing</span></b></span><span style="font-size: 10.5pt; "><o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><span style="font-size: 9pt; font-family: Arial, sans-serif; ">Northwestern University Information Technology (NUIT)</span></span><span style="font-size: 10.5pt; "><o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span style="font-size: 10.5pt; ">&nbsp;</span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><span style="font-size: 9pt; font-family: Arial, sans-serif; ">1800 Sherman Suite 206</span></span><span style="font-size: 10.5pt; "><o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><span style="font-size: 9pt; font-family: Arial, sans-serif; ">Evanston, IL 60208</span></span><span style="font-size: 10.5pt; "><o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><span style="font-size: 9pt; font-family: Arial, sans-serif; ">847-491-5365</span></span><span style="font-size: 10.5pt; "><o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin: 0in 0in 0.0001pt; font-size: 11pt; "><span class="apple-style-span"><u><span style="font-size: 9pt; font-family: Arial, sans-serif; color: blue; "><a href="http://www.it.northwestern.edu/" style="color: purple; ">www.it.northwestern.edu</a></span></u></span></p>
</div>
</div>
</body>
</html>