<HTML dir=ltr><HEAD><TITLE>Re: [torqueusers] pbs_mom unable to chdir to automounted dirs</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3429" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText31235 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>Why don't you want to hard mount NFS directories on the compute nodes?&nbsp; What problem is this going to cause you?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV dir=ltr><FONT face=Arial size=2>--Joe</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> Mary Ellen Fitzpatrick [mailto:mfitzpat@bu.edu]<BR><B>Sent:</B> Wed 10/22/2008 3:20 PM<BR><B>To:</B> Greenseid, Joseph M.<BR><B>Cc:</B> Luke Scharf; torqueusers@supercluster.org<BR><B>Subject:</B> Re: [torqueusers] pbs_mom unable to chdir to automounted dirs<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>Good thought... How would I slow down pbs_mom, I tried putting a sleep<BR>command in my pbs script and as Luke suggested "ls $HOME", no dice.&nbsp;&nbsp; Do<BR>I need to edit the pbs_mom daemon?<BR><BR>I guess another hack would be to mount (via: cd nfsdir) the nfs dirs on<BR>the compute nodes, but then after the automounter timed out or reboot, I<BR>would be in the same situation.&nbsp; Or to hard mount the nfs dirs (do not<BR>want to do this!!)<BR><BR>Appreciate your help.<BR><BR>Greenseid, Joseph M. wrote:<BR>&gt; I don't have a real useful suggestion, but just a thought -- could it simply be a timing issue in that pbs_mom is trying to stat a file or the directory before it's been fully mounted?&nbsp; It may take a second to get the directory mounted if it wasn't already, and maybe PBS is too fast for the auto-mounter, esp if the NFS server is under some sort of load and could be taking a little longer to respond than normal?<BR>&gt;&nbsp;<BR>&gt; --Joe<BR>&gt;<BR>&gt; ________________________________<BR>&gt;<BR>&gt; From: torqueusers-bounces@supercluster.org on behalf of Mary Ellen Fitzpatrick<BR>&gt; Sent: Wed 10/22/2008 2:53 PM<BR>&gt; To: Luke Scharf<BR>&gt; Cc: torqueusers@supercluster.org<BR>&gt; Subject: Re: [torqueusers] pbs_mom unable to chdir to automounted dirs<BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt; The node OS is CentOS5 as is the nfs server.&nbsp; The pbs server is running<BR>&gt; CentOS4.5.&nbsp; I have rebooted and chanted... :-) :-(<BR>&gt;<BR>&gt; Here is my simple pbs script and it does not have absolute paths.&nbsp; The<BR>&gt; script will run only after the nfs dirs are somehow mounted on the<BR>&gt; node.&nbsp; I have tried it with absolute path names, and it makes no difference.<BR>&gt;<BR>&gt; pbs script:<BR>&gt; #PBS -l nodes=node1048<BR>&gt; # join stderr and stdout and write the to a file<BR>&gt; #PBS -j oe<BR>&gt; #PBS -o test3.o<BR>&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt; # cd into the working directory<BR>&gt; cd $PBS_O_WORKDIR<BR>&gt; # print out some diagnostic stuff<BR>&gt; echo Running on host `hostname`<BR>&gt; echo Directory is `pwd`<BR>&gt; echo Start time is `date`<BR>&gt; # run my commands<BR>&gt;<BR>&gt; ./dostuff2.pl data.txt &gt; test3.out1<BR>&gt;<BR>&gt; # print out some diagnostic stuff<BR>&gt; echo Stop time is `date`<BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt; Luke Scharf wrote:<BR>&gt;&nbsp;&nbsp;<BR>&gt;&gt; If it works with the shell, however, the problem almost has to be with<BR>&gt;&gt; something other than the automounter.<BR>&gt;&gt;<BR>&gt;&gt; Are any asbolute paths in the qsub script correct?<BR>&gt;&gt;<BR>&gt;&gt; -Luke<BR>&gt;&gt;<BR>&gt;&gt;<BR>&gt;&gt; Luke Scharf wrote:<BR>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt; That looks happy, too.<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; What is the underlying OS running on the node?<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; Have you tried just rebooting everything while muttering laments<BR>&gt;&gt;&gt; about stray alpha-particles to everyone within earshot?<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; -Luke<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; Mary Ellen Fitzpatrick wrote:<BR>&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt;&gt; Yeah, that is why I am stumped...&nbsp;&nbsp; because I can cd to nfs dirs,<BR>&gt;&gt;&gt;&gt; seems like autofs is working correctly.&nbsp; But unless the nfs dir is<BR>&gt;&gt;&gt;&gt; pre-mounted, pbs_mom can not find it.&nbsp; Very strange...<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; Yes, getent passwd give the correct home dir info<BR>&gt;&gt;&gt;&gt; [root@node1048 mom_priv]# getent passwd<BR>&gt;&gt;&gt;&gt; mfitzpat:!!:xxxxxx:xxx:mfitzpat:/fs/userB1/mfitzpat:/bin/bash<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; Luke Scharf wrote:<BR>&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt;&gt;&gt; Nothing that you mention looks amiss at first glance...<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; Does the "getent passwd" information for the user have a correct<BR>&gt;&gt;&gt;&gt;&gt; home directory on the node?<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; -Luke<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt; Mary Ellen Fitzpatrick wrote:<BR>&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt;&gt;&gt;&gt; Thanks Luke.<BR>&gt;&gt;&gt;&gt;&gt;&gt; Right now, my cluster is one node, with additional 50 to be<BR>&gt;&gt;&gt;&gt;&gt;&gt; brought on-line once I resolve the automount problem.&nbsp; The job I<BR>&gt;&gt;&gt;&gt;&gt;&gt; am running is very simple, no nfs load on server.<BR>&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt; my $usecp I believe is correct and works properly after the nfs<BR>&gt;&gt;&gt;&gt;&gt;&gt; dir is mounted.<BR>&gt;&gt;&gt;&gt;&gt;&gt; $usecp *:/fs/userB1 /fs/userB1<BR>&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt; My auto.home file:<BR>&gt;&gt;&gt;&gt;&gt;&gt; userB1&nbsp; -rw,hard,intr&nbsp;&nbsp; userB:/userB/u1<BR>&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt; auto.master file:<BR>&gt;&gt;&gt;&gt;&gt;&gt; #+auto.master<BR>&gt;&gt;&gt;&gt;&gt;&gt; /fs&nbsp;&nbsp;&nbsp;&nbsp; /etc/auto.home<BR>&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt; I believe it is an automount issue and I need to tweak a parameter<BR>&gt;&gt;&gt;&gt;&gt;&gt; in a config file.&nbsp; Not sure which one it is at this point.<BR>&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt; Luke Scharf wrote:<BR>&gt;&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; Mary Ellen Fitzpatrick wrote:<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I have my home dirs nfs exported to all of my compute nodes.&nbsp; I<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; can log into the nodes and cd the nfs mounted dirs, no problem.<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; When I submit a job to a node and the automounted nfs dirs are<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; not mount (timed out), I get the following error:<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Oct 21 16:08:14 node1047 pbs_mom: No such file or directory (2)<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; in TMomFinalizeChild, PBS: chdir to '/fs/userB1/mfitzpat'<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; failed: No such file or directory<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; If I immediately resubmit the job to the same node, it will<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; run.&nbsp; It appears that pbs wants the automounted nfs dirs to be<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; already mounted, then the job will run.&nbsp; If I hard mount the nfs<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; home dirs, I have no problem running the jobs, but I do not want<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; to do that.<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Any one run into this?&nbsp; Trying to figure out if it is a torque<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; issue or automount issue.<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; How big is your cluster?&nbsp; How capable is the NFS server?&nbsp; A<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; job-start is likely to create a mountstorm, and generate a lot of<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; I/O.&nbsp; Some servers can handle it, some can't.<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; Yay for scaling issues!<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; -Luke<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt; P.S. I second the suggestion of checking the $usecp value.<BR>&gt;&gt;&gt;&gt;&gt;&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>&gt;<BR>&gt; --<BR>&gt; Thanks<BR>&gt; Mary Ellen<BR>&gt;<BR>&gt; _______________________________________________<BR>&gt; torqueusers mailing list<BR>&gt; torqueusers@supercluster.org<BR>&gt; <A href="http://www.supercluster.org/mailman/listinfo/torqueusers">http://www.supercluster.org/mailman/listinfo/torqueusers</A><BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt;&nbsp;&nbsp;<BR><BR>--<BR>Thanks<BR>Mary Ellen<BR><BR></FONT></P></DIV></BODY></HTML>