如何查看hacmp版本判断hacmp是否起动

weiweinews 的BLOG
用户名:weiweinews
文章数:69
评论数:20
访问量:89449
注册日期:
阅读量:5863
阅读量:12276
阅读量:410362
阅读量:1098486
51CTO推荐博文
PowerHA执行和管理的重点是资源组的启动(Startup),故障转移(Fallover)和退回(Fallback)这几种策略,下面对这几种策略常用的方式进行介绍:
启动策略:
Online On Home Node Only(只在主节点启动):
当主节点加入集群中,就使资源组在线,如果主节点不可用,则资源组保持在离线状态。如下图:
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-1.JPG" width="444" height="375" alt="" />
Online On First Available Node(在第一个启动的节点启动):
在节点列表中的当第一个节点加入到集群中,使资源组在线。如下图:
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-2.JPG" width="435" height="350" alt="" />
Online On All Available Nodes(在所有启动的节点中启动):
当节点列表中节点加入到集群中,使资源组在所有节点上联机。如下图:
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-3.JPG" width="446" height="377" alt="" />
Online Using Distribution Policy(按照分布策略启动):
当有多个资源组,可以通过定义分布式策略来启动。将资源组分摊到不同的节点上。
根据分布策略,是资源组在适当的节点上联机。如下图:
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-4.JPG" width="434" height="355" alt="" />
故障转移方式(Fallover):
Fallover To Next Priority Node In The List(节点失败时资源组迁移到下一优先级节点):
资源组将故障转移到节点列表中的下一个可用节点。如下图:
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-5.JPG" width="444" height="279" alt="" />
Fallover Using Dynamic Node Priority(节点失败时动态选择迁移节点):
基于可用的CPU,内存或者硬盘的使用来选择节点。PowerHA使用RSCT来收集节点列表中的节点的数据,资源组将从失败节点切换到最合适的节点上。这个策略适应于多于3个节点的集群中。如下图:
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-6.JPG" width="436" height="280" alt="" />
Bring Offline(On Error Only)将资源组下线:
当发生错误时,将资源组下线。这种方式是针对Online On All Available Nodes(在所有启动的节点中启动)的资源组设计的。
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-7.JPG" width="433" height="364" alt="" />
退回方式(Fallback):
Fallback To Higher Priority Node In List(节点恢复时资源组返回优先级高的节点):
当有更高优先级节点加入到集群中,资源组退回到该节点上。
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-8.JPG" width="436" height="292" alt="" />
Never Fallback(不进行资源组回迁):
当更高优先级节点加入到集群中,资源组也保持在原节点,不再回迁。
650) this.width=650;" src="http://www-/cn/support/faqhtmlfaq/images/04-9.JPG" width="438" height="292" alt="" />
突出价值点:介绍了资源组的启动、故障转移和回退的策略,跟据定制这些相应的策略,可以满足客户对不同接管机制的需求。
了这篇文章
类别:未分类┆阅读(0)┆评论(0)转:HACMP问题检查
A机、B机HACMP不能相互接管,一般主要表现在两个方面:
1、 双机的HACMP参数配置、某些系统参数的配置以及双机应用环境设置是否符合实际需求;
2、 接管时,占有资源的机器是否能合理地释放资源
HACMP为我们测试高可用性环境提供了一个很有用的工具, 这就是停止hacmp的一种方式-----graceful
with takeover(正常关闭并让另一方接管),要测试双机,可以按照如下面步骤进行:
一、隔离应用测试
1、 检查双机卷组状态(lsvg -o),文件系统情况(df),网卡状态及IP(netstat -in),/etc/hosts表;
2、 隔离应用。为了不改变原有HACMP配置,可将应用脚本中的命令注释掉,或者将这些应用脚本的执
行权限取消掉(chmod a-x filename),或将原有文件备份,将原有文件清空,增加一banner提示;
3、 在A机、B机启动HACMP(smitty clstart);
4、 跟踪/tmp/hacmp.out(tail -f /tmp/hacmp.out),直到node_up_complete事件完毕。检查双机
hacmp状态(clstat),卷组状态(lsvg
-o),文件系统状态(df),网卡及路由状态
(netstat), cluster进程状态(lssrc -g cluster)。如果不能得到预期的结果,则需要检查
hacmp及系统配置;
5、 在A机执行smitty clstop, 选择graceful with takeover;
6、 跟踪双机的/tmp/hacmp.out(tail -f /tmp/hacmp.out),检查双机hacmp状态(clstat),卷组状态
(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) ,cluster进程状态
(lssrc -g cluster)。如果不能得到预期的结果,则hacmp.out文件中应有相应的FAILURE EVENT的
提示,可依此对hacmp及系统进行检查;
7、 如果情况正常,A机的资源被B机接管,则回到A机,执行smit clstart启动HACMP;
8、 跟踪双机的hacmp.out(tail -f /tmp/hacmp.out),检查双机cluster状态(clstat,lssrc -g
cluster),卷组状态(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) 。如果A机不能取
回资源,检查hacmp.out文件,查找FAILURE EVENT信息,然后hacmp及系统进行检查;
9、 如果以上情况都正常,则说明hacmp在没有应用干预的情况下,双机工作正常。可停止双机hacmp
(smitty clstop)进行如下的测试。
二、加载应用测试
10、 检查双机卷组状态(lsvg -o),文件系统情况(df),网卡状态及IP(netstat -in),检查应用脚本权
限、属主,内容(将原先脚本复原)。
11、 在A机执行smitty clsart,。
12、 跟踪hacmp.out,检查是否被正常启动,检查卷组、文件系统、应用进程、网卡ip地址,同时还可
以进行简单的应用测试。如果应用没被启动,则需要检查应用启动脚本以及应用环境。
13、 如应用正常,则执行smitty clstop,选择graceful;
14、 检查hacmp.out、卷组、文件系统、cluster进程、网卡IP地址。如果其中出现以下情况将不能停止:
1) 文件系统没有被unmount,检查还有哪些进程在使用它(fuser -u filesystem),然后对应用脚
本进行优化。
2) 文件系统被unmount,但卷组没被varyoff,检查lsvg -l vgname,查看是不是还有lv是open状
态,检查还有哪些进程在使用它(fuser
-u /dev/lvname),然后对应用脚本进行优
* 如果以上方法都无效,可尝试如下方法,在停止应用脚本未尾增加如下几行:
fuser -ku /filesystem(将正在使用文件系统的进程强迫杀掉)
fuser -ku /dev/lvname(将正在使用逻辑卷的进程强迫杀掉)
15、 如果上述情况正常,则证明机器A机应用脚本没有问题。现在开始启动双机的HACMP(smitty clstart);
16、 在A机执行smitty clstop, 选择graceful with takeover;
17、 跟踪双机的/tmp/hacmp.out(tail -f /tmp/hacmp.out),检查双机hacmp状态(clstat),卷组状态
(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) ,cluster进程状态(lssrc -g cluster)。
出现问题的原因可能有两种:
1) A机cluster进程一致处在stopping状态(lssrc -g cluster),A机hacmp.out有fail event信
息,这时可考虑在A机停止脚本后加一时间延迟,如sleep
2) A机资源正常释放,B主机卷组、文件系统、网卡地址都正常接管,但应用未启动,此时应检
查B机应用启动脚本属性、内容以及应用环境。
18、 如果情况正常,则说明B机接管A机的资源正常。再在A机,执行smit clstart启动HACMP;
19、 跟踪双机的hacmp.out(tail -f /tmp/hacmp.out),检查双机cluster状态(clstat,lssrc -g
cluster),卷组状态(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) 。如果A机不能取回
资源,参考14和17;
以上测试只是针对资源组是casscading方式,并且A机的优先级比B机高。要测试以B机为主的资源组,同样可参照
上述方法。
检查HACMP常用命令:
1、 检查文件系统状态
2、 检查网卡及IP地址状态
# netstat -in
3、 查看路由表
#netstat -rn
4、 检查卷组
# lsvg -o 检查激活的卷组
# lsvg vgname 检查卷组的属性,卷组的有效空间、利用空间、空闲空间,卷组是否启动激活
# lsvg -l vgname 检查卷组包含的逻辑卷
5、 检查物理卷
# lspv pvname 检查物理卷属性,空间使用情况
6、 性能分析检查
# vmstat m n (m表示显示行数,n表示间隔时间)
7、 页空间使用情况
8、 进程状态检查
9、 HACMP CLUSTER进程状态检查
# lssrc -g cluster
# ps -ef | grep cluster
10、 检查双机节点运行状态
# /usr/sbin/cluster/clstat (clinfo进程必须启动)
11、 启动、停止HACMP
# smitty clstart(推荐) & # rc.cluster
& # startsrc -g cluster
# smitty clstop(推荐) & # clstop & #
stopsrc -g cluster
12、捕获hacmp启停事件状态信息 tail -f
/tmp/hacmp.out
hacmp的故障处理方法(摘自CU)
在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作.
一般地,HACMP环境下的排错包括:
.了解问题的存在.
.判断问题的出处.
.解决问题.
一 了解问题的存在
您可以通过以下途径了解到一个CLUSTER环境下出现了问题.
.最终用户的投诉,他们无法访问应用程序.
.控制台上出现一些HACMP的信息.
1.应用服务无法访问
最终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA排错的一部分.
2.控制台上出现一些HACMP的信息
在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中.
二 判断问题的出处
当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.
1.保存好一些LOG文件.(/tmp/hacmp.out &
/tmp/cm.log).因为它们可能被覆盖.
2.仔细检查HACMP所产生的LOG文件.它们能提供最初的判断线索.
3.用HACMP的工具和AIX的命令来检查HACMP的部件是否正常.
4.打开HACMP的跟踪工具来产生更详细的信息.
.HACMP的LOG文件:以下文件都是文本文件,可以用VI来看.每个日志文件都含有每个信息的产生时间.
/usr/adm/cluster.log :记录了HACMP的状态,由HA的守护进程所产生.
/tmp/hacmp.out :记录了HA的详细脚本.
/usr/sbin/cluster/history/cluster.mmdd :记录了HA的各个事件的发生.
/tmp/cm.log :由clstrmgr进程产生,每次HA重起时会被覆盖.
.HACMP FOR AIX的结构
HACMP软件层
LVM & TCPIP 层
物理网络层
物理硬盘层
在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层
我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o
来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装, netstat -i来看我们所须的service
IP是UP的状态(或用ifconfig en*),cluster node 之间的service 与service IP
,standby与 standby IP
互相可以ping通.在各个节点上执行stty&&/dev/tty*
有相应的信息出现.说明硬件层,LVM & TCPIP 层,AIX
层没有问题,问题可能出现在应用层与HACMP软件层上.否则问题就出现在相应的层次上.
在HACMP软件层上,我们可以用vi /tmp/hacmp.out来看,如果出现event
failed的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out无信息出现,则问题可能出现在应用层.
以下是HA排错的一些守则:
.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件.
.尝试去重复问题的出现.不要被用户所反映的问题迷惑.
.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一次重复多个可能.
.不要凭经验来判断问题,而是要在各种测试后,由结果来判断.
.隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.
.由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试.
.一次做一次改动,否则我们无法知道是那个改动解决了问题.
.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等.
.保持各种测试的记录以及解决的步骤,用做将来排错的参考.
.拨打IBM服务热线,将问题现象和您所做的测试结果告诉IBM的工程师,他们将在CALL
CENTER的测试中心重复试验,必要时会派工程师到场解决问题.
三 IBM HACMP 双机系统的管理和维护
本节将说明HACMP 双机软件的一些基本管理和维护命令这些命令将会在HACMP 双机
系统的日常工作中经常用到.
1 HACMP 双机系统的启动
要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令
行上执行下述命令即可.
# smit clstart
# /usr/sbin/cluster/etc/rc.cluster -boot -N &I
需要注意的是在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源
并对外提供关键服务后启动的节点将成为备节点.
另外在启动HACMP 前需要启动双机上的INFORMIX 和SCP 应用.
2 HACMP 双机系统的关闭
要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权以root 用户进入到
该节点主机在命令行上执行下述命令即可.
# smit clstop
# clstop -gr
需要注意的是若该节点是主节点并且备节点上的HACMP 软件亦正常运行则需注意
clstop 关闭模式的三种选项的不同1 forced 是指立即关闭双机软件不调用任何客户应用的
善后处理例程.2 graceful 是指在关闭双机软件时将调用客户应用预定义的善后处理例程.3
takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点是备节点
则关闭模式选项没有多大意义.
另外关闭HACMP 将关闭manager 和informix.
3 查询HACMP 双机系统的状态
在双机系统的运行当中操作员经常需要知道双机系统的当前状态才有可能对双机系
统出现的异常情况进行恢复处理才能保证双机系统的高可用性和高容错性.查询HACMP 双机系统的状态只需以root
用户进入需要查询的节点进行下列操作
首先检查HACMP 双机软件在该节点是否已启动命令如下
# lssrc -g cluster
若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动.
Subsystem Group PID Status
clstrmgr cluster 22500 active
clsmuxpd cluster 23674 active
clinfo cluster 28674 active
在已确认双机软件HACMP 正常启动的情况下在命令行执行下述命令来察看双机系统的当前状态
# /usr/sbin/cluster/clstat -a
如果双机系统一切工作正常则系统将显示下述类似信息
clstat - HACMP for AIX Cluster Status Monitor
-------------------------------------------------------------------------------------
Cluster: scp_cluster(80) Thu Jan 20 08:45:17 TAIST 2000
State: UP Nodes: 2
SubState: STABLE
Node: mscp1 State: UP
Interface: mscp1_svc (0) Address: 192.9.1.60
Interface: mscp1_tty (1) Address: 0.0.0.0
Node: mscp2 State: UP
Interface: mscp2_svc (0) Address: 192.9.1.61
Interface: mscp2_tty (1) Address: 0.0.0.0
七 常用的系统状态查询命令:
# lsdev &C &s scsi
列出各个SCSI设备的所有相关信息:如逻辑单元号,硬件地址及设备文件名等。
列出正在运行的所有进程的各种信息:如进程号及进程名等。
# netstat -rn
列出网卡状态及路由信息等。
# netstat -in
列出网卡状态及网络配置信息。
列出已加载的逻辑卷及其大小信息。
列出已加载的逻辑卷及其加载位置。
# uname -a
列出系统ID 号,系统名称,OS版本等信息。
# hostname
列出系统网络名称。
# lsvg &l rootvg,lsvg &p rootvg
显示逻辑卷组信息,如包含哪些物理盘及逻辑卷等。
# lslv &l datalv,lslv &p datalv
显示逻辑卷各种信息,如包含哪些盘,是否有镜像等。
八 网络故障定位方法
网络不通的诊断过程:
ifconfig 查看网卡是否启动 (up)
netstat &i 查看网卡状态
Ierrs/Ipkts 和 Oerrs/Opkts是否&1%
ping自己网卡地址 (ip 地址)
ping其它机器地址,如不通,在其机器上用diag检测网卡是否有问题。
在同一网中, subnetmask 应一致。
网络配置的基本方法:
(1) 如需修改网络地址、主机名等,一定要用 chdev 命令
# chdev &l inet0 &a hostname=myhost
# chdev -l en0 -a netaddr='9.3.240.58' -a
netmask=255.255.255.0’
(2) 查看网卡状态:# lsdev &Cc if
(3) 确认网络地址:# ifconfig en0
(4) 启动网卡:# ifconfig en0 up
(5) 配置路由
有两种方式加入路由:
# chdev -l inet0 -a route=’10.47.0.0’,’9.3.240.59’
# route add 10.47.1.2 9.3.240.59
用命令 netstat -rn 查看路由表
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。& Hacmp(High Availability Cluster Multi-Processing)双机热备份的主要功能是提高客户计算机系统及其应用的可靠性,而不是单台主机的可靠性。
一、Hacmp双机系统的工作原理
的工作原理是利用LAN来监控主机及网络、网卡的状态。在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。TCP/IP网络即应用客户端访
问的公共网,该网可以是大多数AIX所支持的网络,如Ethernet,T.R.,FDDI,ATM,SOCC,SLIP,等等。非TCP/IP网络用来
为HACMP对HA环境(Cluster)中的各节点进行监控而提供的一个替代TCP/IP的通讯路径,它可以是用RS232串口线将各节点连接起来,也
可以是将各节点的SCSI卡或SSA卡设置成Target Mode方式。
1、作为双机系统的两台(主机A和B)同时运行Hacmp软件;
2、服务器除正常运行自机的应用外,同时又作为对方的备份主机;
主机A(运行应用):
&&&&&&&&&&&&&&&& Service_ip:&&&&& 172.16.1.1
&&&&&&&&&&&&&&&& Standby_ip:&&&&& 172.16.2.1
&&&&&&&&&&&&&&&& Boot_ip:&&&&&&&& 172.16.1.3
主机B(standby):
&&&&&&&&&&&&&&&& Service_ip:&&&&& 172.16.1.2
&&&&&&&&&&&&&&&& Standby_ip:&&&&& 172.16.2.2
&&&&&&&&&&&&&&&& Boot_ip:&&&&&&&& 172.16.1.4
3、两台主机系统(A和B)在整个运行过程中,通过 &心跳线&相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等);
4、一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运行;
5、应用和资源的接管过程由Ha软件自动完成,无需人工干预;
6、当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。
HACMP双机系统结构图
二、Hacmp安装配置前需作的准备工作
1、划分清楚两台服务器主机各自要运行的应用(如A机运行应用,B机作为standby);
2、给每个应用(组)分配Service_ip、Standby_ip、boot_ip和心跳线tty,如:
3、按照各主机的应用的要求,建立好各自的磁盘组,并分配好磁盘空间;
4、根据Ha软件的要求,对服务器的参数作必要的修改。
三、 HACMP双机服务器系统的解决方案
HACMP的安装配置步骤如下:
(一)在两台服务器上分别安装HACMP软件
#smit installp
(二)分别检查两台主机上安装的软件是否成功
#/usr/sbin/cluster/diag/clverifysoftwareclusterclverify&software Valid Options are:lppclverify.software& lpp
若没有error出现则安装成功。
(三)分别配置两台服务器的boot IP地址和Standby IP地址,保证boot 网和Standby网能ping通(用smit tcpip命令),用netstat命令检查配置是否正确:
#netstat -i
(四)利用smit tty在两台主机上增加一个TTY接口,配置心跳线(RS232):
#smitty tty
&&&&& TTY&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& tty0
&&&&& TTY type&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& &&tty
&&&&& TTY interface&&&&&&&&&&&&&&&&&&&&&&&&&&&&& rs232
&&&&& Description&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& Asynchronous Terminal
&&&&& Status&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& Available
&&&&& Location&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 20-70-01-00
&&& &&Parent adapter&&&&&&&&&&&&&&&&&&&&&&&&&&&& sa2
&&   PORT number&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [0]&&&&&&&&&&&&&
&&&&& Enable LOGIN&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& disable&&&&&&&&&&&&&&&
&&&&& BAUD rate&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [9600]&&&&&&&&&&&&&&&&&
&&&&& PARITY&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& &&&[none]&&&&&&&&&&&&&&&&&
&&&&& TS per_character&&&&&&&&&&&&&&&&&&&&&&&& [8]&&&&&&&&&&&&&&&&&&&&
&&&&& Number of STOP BITS&&&&&&&&&&&&&&&&&&&&&&& [1]
用lsdev &Cc tty查看tty是否配置好。
#lsdev &Cc tty
在两台上分别输入如下命令:
&S85_1# cat /etc/hosts &/dev/tty0S85_2# cat
如果在S85_2机能接收到信息,则表明心跳线已经配置好。
(五)具体配置及技巧
注:HACMP的配置(或修改配置)只需要在其中的一台主机上进行,当配置(或修改)完毕后使用同步命令将配置结果传到另外一台主机上。一般选S85_1在进行配置。
在S85_1上运行smit hacmp,然后按照下面的步骤进行配置:
#smit hacmp
1、 Cluster Configuration1.1、配置Cluster Topology
配置Configure Cluster/ Add a Cluster Definition&
&&&_*Cluster ID&&&&&&&&&&&&&&&&&&&&&&&&& [100]&&&&&&&&&&&&&&&&&&
&&&_*Cluster Name&&&&&&&&&&&&&&&&&&&&&& [sb_ha]
配置Configure Nodes,增加两个Node
&&&_*Node Names&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [s85_a]
&&&_*Node Names&&&&&&&&&&&&&&&&&&&& &&&&&&&&&&&&&&&[s85_b]
配置Configure Adapters,分别配置两台机的service地址,boot地址,standby地址
&& 及tty(a_svc、b_svc、a_boot、b_boot、a_stdby、b_stdby、a_tty、b_tty)
&&&_*Adapter IP Label&&&&&&&&&&&&&&&&&&&&&&&&&&&  a_svc
&&&&& Network Type&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [ether]&&&&&&&&&&&&&&&&
&&&&& Network Name&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [ethnet]&&&&&&&&&&&&&&
&&&&& Network Attribute&&&&&&&&&&&&&&&&&&&&&&&&&&&& public&&&&&&&&&&&&&&&&
&&&&& Adapter Function&&&&&&&&&&&&&&&&&&&&&&&&&&&&& service&&&&&&&&&&&&&&&
&&&&& Adapter Identifier&&&&&&&&&&&&&&&&&&&&&&&&&&& [172.16.1.1]
&&&&& Adapter Hardware Address&&&&&&&&&&&&&&&&&&&&& [ ]
&&&&& Node Name&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [s85_a]
修改/etc/hosts及/.rhosts文件,如:修改/etc/hosts文件,增加以下内容:
&&&&& 172.16.1.1&&&&&&&&&&& a_svc
&&&&& 172.16.1.2&&&&&&&&&&& b_svc
&&&&& 172.16.1.3&&&&&&&&&&& a_boot
&&&&& 172.16.1.4&&&&&&&&&&& b_boot
&&&&& 172.16.2.1&&&&&&&&&&& a_stdby
&&&&& 172.16.2.2&&&&&&&&&&& b_stdby
修改/.rhosts文件,增加以下内容:
&&&&& a_svc
&&&&& b_svc
&&&&& a_boot
&&&&& b_boot
&&&&& a_stdby
&&&&& b_stdby
1.2、同步cluster(Cluster Configuration/ Cluster Topology/ Synchronize Cluster Topology)在进行同步的时候可以先进行模拟(Emulate)同步,当模拟同步OK后再进行实际(actual)同步:
Synchronize Cluster TopologyType or _selectvalues in entry fields.Press Enter AFTER making all desired changes.[TOP] [Entry Fields]Ignore Cluster Verification Errors? [No] +* Emulate or Actual? [Emulate] +
2、配置Cluster Resources2.1、定义一个资源组(Define Resource Groups)注意,在定义资源组的时候,要注意Participating Node Names的先后顺序。
Resource Group Name&&&&&&&&&&&&&&&&&&&&&&&&&& data_res&
&&& New Resource Group Name&&&&&&&&&&&&&&&&&&&&&& []
&&& Node Relationship&&&&&&&&&&&&&&&&&&&&&&&&&&&& cascading&
&&& Participating Node Names&&&&& &&&&&&&&&&&&&&&&[s85_a&s85_b]
&&& 2.2、定义应用服务器(Define Application Servers)
&&& Server Name&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& ora_app&
&&& New Server Name&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [ ]
&&& start Script&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [/etc/start]
&& &Stop Script&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& [/etc/stop]
&&& 2.3、修改资源组属性(Change/Show Resources for a Resource Group)
&&& data_res组:&&&&
&&&&&& Resource Group Name&&&&&&&&&&&&&&&&&&&&&& data_res
&&&&&& Node Relationship&&&&&&&&&&&&&&&&&&&&&&&& cascading
&&&&&& Participating Node Names&&&&&&&&&&&&&&&&& s85_a&s85_b
&&&&&& Service IP label&&&&&&&&&&&&&&&&&&&&&&&&& [a_svc]
&&&&&& Filesystems(default is all)&&&&&&&&&&&&&& []&&&&&&&&&&&&&&&
&&&&&& Filesystems Consistency Check&&&&&&&&&&&& fsck
&&&&&& Filesystems Recovery Method&&&&&&&&&&&&&& sequential
&&&&&& Filesystems to Export&&&&&&&&&&&&&&&&&&&& []
&&&&&& Filesystems to NFS mount&&&&&&&&&&&&&&&&& []&&&&&&&&&
&&&&&& Volume Groups&&&&&&&&&&&&&&&&&&&&&&&&&&&& [datavg logvg]
&&&&&& Concurrent Volume groups&&&&&&&&&&&&&&&&& []&&&&&&&&&&
&&&&&& Raw Disk PVIDs&&&&&&&&&&&&&&&&&&&&&&&&&&& []&
&&&&&& Application Servers&&&&&&&&&&&&&&&&&&&&&& [ora_app]
2.4、同步资源组(Synchronize Cluster Resources)在进行同步的时候可以先进行模拟(Emulate)同步,当模拟同步OK后再进行实际(actual)同步:
Synchronize Cluster ResourcesType or _selectvalues in entry fields.Press Enter AFTER making all desired changes.[TOP] [Entry Fields]Ignore Cluster Verification Errors? [No] +* Emulate or Actual? [Emulate] +
3、HACMP的启动及关闭
(1)启动过程:
#smit clstart#tail &f /tmp/hacmp.out May 22 17:29:23 EVENT COMPLETED: node_up_complete s85_a
如果/tmp/hacmp.out文件显示类似上述信息,则表明HACMP在本机上可以正常启动。
(2)关闭过程:
#smit clstop
4、HACMP功能的测试
在HACMP配置完成并检查没有错误后,即可按3的方法启动HACMP,进行功能测试。包括应用在同一台服务器的两个网卡能否切换,在两台服务器间能否切换等。可用命令:
#netstat-in
来看地址的切换情况
四、HACMP常见的故障解决方法
HACMP将诊测并响应于三种类型的故障:1网卡故障,2网络工作,3节点故障。下面就这三种故障分别进行介绍。
1、网卡故障
的群集结构中,除了TCP/IP网络以外,还有一个非TCP/IP网络,它实际上是一根&心跳&线,专门用来诊测是节点死机还是仅仅网络发生故障。如下图
所示,一旦节点加入了
Cluster(即该节点上的HACMP已正常启动),该节点的各个网卡、非TCP/IP网络就会不断地接收并送Keep-Alive信号,K-A的参数
是可调的,HA在连续发送一定数量个包都丢失后就可确认对方网卡,或网络,或节点发生故障。因此,有了K-A后,HACMP可以很轻易地发现网卡故障,因
为一旦某块网卡发生故障发往该块网卡的K-A就会丢失。
此时node 1上的cluster
HACMP的&大脑&)会产生一个swap-adapter的事件,并执行该事件的script(HACMP中提供了大部分通用环境下的事件
scripts,它们是用标准AIX命令和HACMP工具来写的)。每个节点上都有至少两块网卡,一块是service
adapter,提供对外服务,另一块是standby adapter,它的存在只有cluster
manager知道,应用和client并不知道。
一旦发生swap-adapter事件
后,cluster manager将原来service adapter的 IP地址转移到standby
adapter上,而standby地址转移到故障网卡上,同时网络上其他节点进行ARP的刷新。网卡互换(swap-adapter)在几秒内就可完
成,以太网为3秒,并且这种转换对应用和client来说是透明的,只发生延迟但连接并不中断。
2、网络故障
如果发往node1上的service和standby网卡上的K-A包全都丢失,而非TCP/IP网络上的K-A仍然存在,那么HACMP判断node1仍然正常而网络发生故障。此时HACMP执行一个。
3 、节点故障
果不仅TCP/IP网络上的K-A全部丢失,而且非TCP/IP网络上的K-A也丢失,那么HACMP断定该节点发生故障,并产生node-down事
件。此时将有资源接管,即放在共享磁盘陈列上的资源将由备份节点接管,接管包括一系列操作:Acquire disks,Varyon VG,
Mount file systems,Export NFS file systems, Assume IP network Address,
Restart highly available
applications,其中IP地址接管和重新启动应用由HACMP来实现,而其他是由AIX来完成。
整个节点发生故障时,HACMP将故障节点的service IP
address转移到备份节点上,使网络上的client仍然使用这个IP地址,这个过程称为IP地址接管(IPAT),当一个节点down掉后,如果设
置了IP地址接管,网络上的clients会自动连接到接管节点上;同样,如果设置了应用接管,该应用会在接管节点上自动重启,从而使系统能继续对外服
务。对于要实现接管的应用,只需在HACMP中把它们设置成application server,并告诉HACMP启动这个应用的start
script的全路径名和停止该应用的stop script的全路径名。由此可见,应用接管的配置在HACMP中十分简单,重要的是start
script和stop script的写作,这需要用户对自己应用的了解。
4、其他故障
HACMP只去检测网卡、网络和节点是否发生故障,并作出相应的转移、接管行为。对于其他故障,那么HACMP缺省不作任何动作。
a、硬盘故障
般我们都将硬盘设置成RAID-5方式或mirror方式,从而提供硬盘的高可用性。RAID-5将奇偶较验位分散在硬盘组中,因此当一组内的一个硬盘坏
掉,组内的其他硬盘可以通过奇偶较验位将该硬盘上的数据恢复出来。RAID-5方式一般是由硬件实现的,如下7133的SSA适配器,而且如果同一组内的
两个硬盘坏掉,该组硬盘的数据很可能就会全部丢失。mirror方式是将同一个数据写到至少两个物理外置上,因此它的效率没有RAID-5好,而且用盘量
大,但安全性比RAID-5高,而且它易于实现,通过AIX中的(Logic Volume Management)可以很方便地设置。
b、硬盘控制卡
存储设备连接到主机上都必须通过一块控制卡,SCSI设备是SCSI Adapter, SSA设备是SSA Adapter,如果这块卡坏掉,与之连接的外设就无法利用。有几种办法可以解决这个问题。
种办法是用多个adapter。每个主机上都有两块或两块以上adapter,分别连接mirror的数据,因此无论是硬盘坏掉,还是Adapter坏
掉,所有好数据还是可以被主机利用,不会出现单点故障。这种方法实现起来并不难,但必须配置多块adapter,而且必须采用数据mirror方式。这种
方法也不用通过HACMP来实现。
另一种方法仍只用一块adapter,利用HACMP中的Error Notification Facility( 错误通告机制)来解决。
Error Notification Facility是HACMP提供的对其他设备的监控工具,任何报告给AIX的错误(error)都能被捕获被采取相应措施。HACMP提供了smit界面,使配置简单化。
们已知道,用LVM可实现硬盘镜像,当一个盘坏掉,仍有一份数据在镜像盘里,数据仍可进行读写,但此时数据不再有可用性,若镜像盘也坏掉则数据全部丢失。
所以在此例中,PV丢失(LVM_PVMISS)的信息会大幅显示在控制台面上,从而提醒用户去仔细查看error
log找出故障并修复它。同样,此例中HACMP提供了界面,结合AIX的功能,从而监控故障的发生。
c.、应用故障
果用户的应用有kernel
call调用,或以root身份来启动等,一旦应用发生故障,很容易导致操作系统down掉,发生死机,这时实际上等于节点故障,HACMP会采取相应接
管措施。如果只是应用自身死掉,AIX仍正常运行,HACMP最多利用Error Notification
Facility来提供监控功能,对应用本身不采取任何动作。但如果应用中调用了AIX的SRC (System Resource
Controller)机制所提供的API接口,就可以使应用在down掉后自动重新启动。除了SRC提供API接口外,HACMP中的clinfo也提
供这样的API。
clinfo是cluster Information daemon,它负责维护整个cluster的状态的信息,clinfo API允许应用程序利用这些状态信息来采取相应行动。
d.、HACMP故障
如果cluster中节点的HACMP进程down掉,HACMP将其升级为节点故障,从而发生资源接管。
上所述,HACMP只全权负责诊断网卡故障、网络故障和节点故障这三类故障,并负责实现IP地址转换或接管,以及整个系统资源(
硬件、文件、系统、应用程序,等等)的接管。对于这三类故障外的其他故障,可以结合AIX基本功能和HACMP提供的一些机制,如Error
Notification Facility, clinfo API 等,同样可以实现对故障的监控并采取相应措施。
阅读(...) 评论() &

我要回帖

更多关于 aix hacmp 的文章

 

随机推荐