Here is a bit from the maui.log file of a scheduling run where it did not start:<br><br>06/23 10:22:55 MQueueSelectJobs(SrcQ,DstQ,SOFT,5120,4096,2140000000,EVERY,FReason,TRUE)<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition ALL: 1/1<br>
06/23 10:22:55 MQueueSelectJobs(SrcQ,DstQ,SOFT,5120,4096,2140000000,DEFAULT,FReason,TRUE)<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition DEFAULT: 1/1<br>06/23 10:22:55 MQueueScheduleIJobs(Q,DEFAULT)<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 180 feasible tasks found for job 42433:0 in partition DEFAULT (20 Needed)<br>
06/23 10:22:55 ALERT:&nbsp;&nbsp;&nbsp; inadequate tasks to allocate to job 42433:0 (4 &lt; 20)<br>06/23 10:22:55 ERROR:&nbsp;&nbsp;&nbsp; cannot allocate nodes to job &#39;42433&#39; in partition DEFAULT<br>06/23 10:22:55 MJobPReserve(42433,DEFAULT,ResCount,ResCountRej)<br>
06/23 10:22:55 MJobReserve(42433,Priority)<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 180 feasible tasks found for job 42433:0 in partition DEFAULT (20 Needed)<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 180 feasible tasks found for job 42433:0 in partition DEFAULT (20 Needed)<br>
06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; located resources for 20 tasks (140) in best partition DEFAULT for job 42433 at time 00:00:01<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; tasks located for job 42433:&nbsp; 20 of 20 required (140 feasible)<br>06/23 10:22:55 MJobDistributeTasks(42433,SCFS.*FQDN*,NodeList,TaskMap)<br>
06/23 10:22:55 MResJCreate(42433,MNodeList,00:00:01,Priority,Res)<br>06/23 10:22:55 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job &#39;42433&#39; reserved 20 tasks (partition DEFAULT) to start in 00:00:01 on Mon Jun 23 10:22:56<br><br><br><br>Here is the one where it ran 2 minutes later (it had been submitted almost 24 hours before.<br>
<br>06/23 10:24:05 MStatClearUsage([NONE],Idle)<br>06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected (ALL): 1/12 [State: 11]<br>06/23 10:24:05 MQueueSelectJobs(SrcQ,DstQ,HARD,5120,4096,2140000000,EVERY,FReason,FALSE)<br>06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition ALL: 1/1<br>
06/23 10:24:05 MQueueScheduleRJobs(Q)<br>06/23 10:24:05 MQueueSelectJobs(SrcQ,DstQ,SOFT,5120,4096,2140000000,EVERY,FReason,TRUE)<br>06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition ALL: 1/1<br>06/23 10:24:05 MQueueSelectJobs(SrcQ,DstQ,SOFT,5120,4096,2140000000,DEFAULT,FReason,TRUE)<br>
06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; total jobs selected in partition DEFAULT: 1/1<br>06/23 10:24:05 MQueueScheduleIJobs(Q,DEFAULT)<br>06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 180 feasible tasks found for job 42433:0 in partition DEFAULT (20 Needed)<br>
06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; tasks located for job 42433:&nbsp; 20 of 20 required (67 feasible)<br>06/23 10:24:05 MJobStart(42433)<br>06/23 10:24:05 MJobDistributeTasks(42433,<a href="http://SCFS.PITT.PENN.SEAGATE.COM">SCFS.PITT.PENN.SEAGATE.COM</a>,NodeList,TaskMap)<br>
06/23 10:24:05 MAMAllocJReserve(42433,RIndex,ErrMsg)<br>06/23 10:24:05 MRMJobStart(42433,Msg,SC)<br>06/23 10:24:05 MPBSJobStart(42433,<a href="http://SCFS.PITT.PENN.SEAGATE.COM">SCFS.PITT.PENN.SEAGATE.COM</a>,Msg,SC)<br>06/23 10:24:05 MPBSJobModify(42433,Resource_List,Resource,sc45:ppn=4+sc44:ppn=4+sc43:ppn=4+sc35:ppn=4+sc32:ppn=4)<br>
06/23 10:24:05 MPBSJobModify(42433,Resource_List,Resource,20:ib)<br>06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; job &#39;42433&#39; successfully started<br>06/23 10:24:05 MStatUpdateActiveJobUsage(42433)<br>06/23 10:24:05 MResJCreate(42433,MNodeList,00:00:00,ActiveJob,Res)<br>
06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; starting job &#39;42433&#39;<br>06/23 10:24:05 INFO:&nbsp;&nbsp;&nbsp;&nbsp; 1 jobs started on iteration 1378<br><br><br>There was a single other job running initial that was using 40 slots on 10 nodes (out of 47). There were other processes running on the nodes outside of torque/maui but when counting by hand we found that there were more than 5 nodes with a load less than 4 so there should have been enough available for th job to run.&nbsp; Just before it ran I had loaded up a number of single process jobs to see if they would be schedualed and it schedualed and ran all 10 of them without a problem and then in the same iteration job 42433 ran.<br>
<br>From maui.cfg<br><br>We have an entry as follows for each node though some have lower limits because they run software outside the queue.<br>NODECFG[sc01]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; MAXLOAD=4.0<br><br>We also have the following in the file:<br>
USERCFG[DEFAULT]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; MAXJOB=150,200<br><br>NODEALLOCATIONPOLICY&nbsp;&nbsp;&nbsp; CPULOAD<br>NODELOADPOLICY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ADJUSTSTATE<br>BACKFILLPOLICY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; FIRSTFIT<br>RESERVATIONPOLICY&nbsp;&nbsp;&nbsp;&nbsp; CURRENTHIGHEST<br>QUEUETIMEWEIGHT&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1<br>
<br><br>All the nodes are identical dual dualcore cpus.<br><br>Any thoughts or suggestions are appreciated.<br><br>Thanks,<br>Rob<br>