<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 12 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>This morning I discovered that the maui scheduler process was not running on one of our clusters like it should. When I try to start the maui process as the maui user I get a segmentation fault. In checking the log files the last few entries look like this:<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueSelectAllJobs(Q,HARD,ALL,JIList,DP,Msg)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '231' Priority:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 605<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; Cred:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; FS:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Attr:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Serv:&nbsp;&nbsp;&nbsp; 605(00.0)&nbsp; Targ:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Res:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Us:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MStatClearUsage([NONE],Active)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected (ALL): 1/1<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueSelectAllJobs(Q,SOFT,ALL,JIList,DP,Msg)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job '231' Priority:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 605<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; Cred:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; FS:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Attr:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Serv:&nbsp;&nbsp;&nbsp; 605(00.0)&nbsp; Targ:&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;0(00.0)&nbsp; Res:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)&nbsp; Us:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0(00.0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MStatClearUsage([NONE],Idle)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected (ALL): 1/1<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueSelectJobs(SrcQ,DstQ,HARD,5120,4096,2140000000,EVERY,FReason,FALSE)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition ALL: 1/1<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueScheduleRJobs(Q)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueSelectJobs(SrcQ,DstQ,SOFT,5120,4096,2140000000,EVERY,FReason,TRUE)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition ALL: 1/1<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueSelectJobs(SrcQ,DstQ,SOFT,5120,4096,2140000000,DEFAULT,FReason,TRUE)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition DEFAULT: 1/1<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MQueueScheduleIJobs(Q,DEFAULT)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 156 feasible tasks found for job 231:0 in partition DEFAULT (39 Needed)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 156 feasible tasks found for job 231:1 in partition DEFAULT (39 Needed)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 156 feasible tasks found for job 231:2 in partition DEFAULT (39 Needed)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 156 feasible tasks found for job 231:3 in partition DEFAULT (39 Needed)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 156 feasible tasks found for job 231:4 in partition DEFAULT (16 Needed)<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>Prior to the above entries there are a WHOLE BUNCH of entries similar to these shown below:<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TJC,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TNJA,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TNJC,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TNXF,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TPSD,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TPSE,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TPSR,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TPSU,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TQM,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TQT,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TRT,ValList,0)<o:p></o:p></p><p class=MsoNormal>11/28 15:45:24 MUGetIndex(TXF,ValList,0)<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal> There is only this one job in the queue on a 256 node cluster running torque 2.5.7 and maui 3.2.6p21 <o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>I have tried starting the maui process within strace but I do not see any smoking gun in that strace output.<o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal>I can probably get maui to start if I qdel the job but I was sort of hoping to see what was causing the problem in case any additional debugging output was needed.<o:p></o:p></p><p class=MsoNormal>--<o:p></o:p></p><p class=MsoNormal>Steven DuChene<o:p></o:p></p></div></body></html>