请教一个SGE的安装文问题

duanjianghu
请教一个SGE的安装文问题

我用的是sge-6.0u7, 分别安装了在两台机器,一台是主控主机hostM,一台是执行主机 hostE
完全是按照 《N1 Grid Engine 6 安装指南》安装的

现在的问题是 hostM 找不到 hostE

在hostM  已经通过 qconf -ae hostE 将hsotE 添加进去了

但是在hostM上运行 qhost 的结果为:

HOSTNAME                ARCH         NCPU  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
-------------------------------------------------------------------------------
global                  -               -     -       -       -       -       -
hostE                      -               -     -       -       -       -       -

而在 hostE 上运行 qhost 的结果为:


HOSTNAME                ARCH         NCPU  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
-------------------------------------------------------------------------------
global                  -               -     -       -       -       -       -
x5                      lx24-x86        1  0.00  383.5M   78.6M  792.3M     0.0

请问如果正确将 hostE 添加为 hostM 的执行节点,并且能够得到hostE的相关数据??
谢谢!!

troyme
[quote]原帖由 [i]duanjianghu[/i] 于 2008-5-13 17:42 发表 [url=http://linux.chinaunix.net/bbs/redirect.php?goto=findpost&pid=6585658&ptid=1002540][img]http://linux.chinaunix.net/bbs/images/common/back.gif[/img][/url]
我用的是sge-6.0u7, 分别安装了在两台机器,一台是主控主机hostM,一台是执行主机 hostE
完全是按照 《N1 Grid Engine 6 安装指南》安装的

现在的问题是 hostM 找不到 hostE

在hostM  已经通过 qconf  ... [/quote]


把两台机器上的
ps aux|grep sge

贴出来看看,好久前装过,测试环境都撤掉了,可惜

duanjianghu
hostE:

sgeadmin 25838  0.0  0.5 80576 2076 ?        S    May14   0:05 [sge_qmaster]
sgeadmin 25858  0.0  0.4 39104 1828 ?        S    May14   0:06 [sge_schedd]
sgeadmin 26498  0.0  0.3  5052 1404 ?        S    May14   0:02 [sge_execd]
root     28202  0.0  0.1  3572  624 pts/0    S    08:38   0:00 grep sge

hostM

sgeadmin 26427  0.0  0.5 81644 1500 ?        S    May14   0:04 [sge_qmaster]
sgeadmin 26454  0.0  0.5 39112 1404 ?        S    May14   0:03 [sge_schedd]
sgeadmin 26506  0.0  0.4  5164 1092 ?        S    May14   0:01 [sge_execd]


(后来我又在hostM 上装了一个执行机) 现在两台机器的 qhost 结果是这样的:

hostE

HOSTNAME                ARCH         NCPU  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
-------------------------------------------------------------------------------
global                  -               -     -       -       -       -       -
hostE                      lx24-x86        1  0.05  383.5M   41.2M  792.3M   84.0K

hostM

HOSTNAME                ARCH         NCPU  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
-------------------------------------------------------------------------------
global                  -               -     -       -       -       -       -
hostM                     lx24-x86        1  0.02  249.3M   49.6M  509.9M    5.5M
hostE                      -               -     -       -       -       -       -

troyme
首先,最简单的架构来说,即一个管理节点,多个运行节点,暂不讨论多管理节点
作为管理节点,一般运行 [sge_qmaster] 和[sge_schedd],当然也可以运行[sge_execd]
而作为运行节点,但是一般不建议这么做。
运行节点只需运行[sge_execd],如果你要用hostM来管理整个集群,则hostE的sge配置中
[root@hostE ~]# cat sge/default/common/act_qmaster
hostM

其中sge为你的sge安装目录,hostM为管理节点主机名,我怀疑你的hostE中的这个配置文件的主机名没有指向hostM。你检查一下看看