High Availability Cluster Multiprocessing (HACMP) は、IBMのAIXおよびLinuxプラットフォーム用の、高可用性のためのクラスターパッケージである。2008年4月にPowerHA for AIX and Linuxと改名された。
目次
1 概要
2 構成
3 動作仕様
4 比較
5 関連項目
6 外部リンク
//
HACMPはRS/6000の初期から提供が始まったが、当初はAIX用のみであり、ES機能は別ライセンスであった。
HACMPは、2台から32台のサーバをクラスターに結合し、サービスノードの障害発生時には、スタンバイノードへのリソースの引継ぎを自動で行う。引継ぎできるリソースには以下がある。
ディスク(外部ディスク装置上のボリュームグループ、論理ボリューム、ファイルシステム)
ネットワーク(IPアドレス。構成によってはMACアドレスも可能。ノード内の複数NIC間でも引継ぎ可能)
アプリケーション(DB2、OracleなどのDBMS、MQ、Tivoliなどの他、ユーザーアプリケーションも可能)
HACMPは、日立からもEP8000のAIX用(IBMからのOEM)として販売されている。
HACMPは、2008年4月のPower Systems発表の際にPowerHA for AIX and Linuxと改名され、プラットフォームにLinuxが追加された。現在の最新バージョンは 5.4.1 である。
HACMP(PowerHA、以下同様)はクラスターとして、複数のノード(サーバ、OS)に導入・構成され、ノードの稼動状況を相互監視する。サービス側のノードが障害と判断した場合には、事前登録したリソース(IPアドレス、外部ディスク上のファイルシステム、起動プロセス等)を、スタンバイ側の別のノードへ自動引継ぎ(フェイルオーバー、テイクオーバー)する。
引継ぎパターンは、正副構成(サービス機とスタンバイ機)、相互バックアップ(サービス機同士で障害時は片寄せし、縮退運用)、カスケーティング(クラスタ内の適当なスタンバイノードへ引継ぎ)などが可能である。
HACMPは一部のプロセスと多数のシェルスクリプトより構成されており、シェルスクリプトはユーザーによるカスタマイズが可能である(このため、カスタマイズには一定のスキルが必要な反面、きめ細かい構成・運用が可能となる)。
HACMPは、監視・判断・引継ぎ操作などのオペレーションを自動化して、サービス停止時間を最小にするソリューションであり、無停止ソリューションではない(障害発生から引継ぎ完了までの間、および戻しの間はサービス停止となる)。
また、各ノードのハードウェア障害やOS障害などには対応できるが、引継ぎ対象リソース(外部ディスク装置、アプリケーション)自体の障害には対応できないので、単一障害点(SPOF)の除去の観点からは、別の冗長化(外部ディスク装置側の冗長化など)を組み合わせる事が望ましい。更に、LPAR(論理区画)などを使用している場合は、サービスノードとスタンバイノードは、サーバ筐体は当然ながら分ける事が望ましい。
ただしオプションの HACMP Extended Distance (HACMP/XD) は、距離が無制限のデータ・ミラーリングとリカバリーを提供する、災害復旧(ディザスター・リカバリー)ソリューションであリ、単一障害点の視点は上述とは異なる。
なお、WebSphere Application ServerやDominoなどの高可用性には、HACMPではなく、それぞれのミドルウェアのクラスタ機能を使う場合が一般的である。
高可用クラスターとして、各ノード間の健常性を確認し合う、ハートビート機能をKeepAlive (KA)と呼び、ネットワークアダプタを介したTCP/IPによるものと、RS-232C(EIA-232-D)によるシリアルインターコネクトによるもの、共有ディスク(FCP、SCSI、SSA) 経由のものを組み合わせる事ができる。
現時点でRS-232Cをインターコネクトに推奨している唯一の高可用クラスタパッケージでもある。これはTCP/IP経由のみでは、ネットワーク障害(NIC障害、LANケーブル障害、Ethernetスイッチ障害など)の場合に、ノードの生死が正確に判定できないためである。
なお、他の高可用クラスタパッケージにおいては、RS-232Cの使用は推奨されていない。その理由は、ノイズが乗り易いためにハートビートが途切れたり、排他制御が一切利かないため、信頼性に欠く点が挙げられる。そのためHACMPではサポートされているRS-232C装置を使用する必要がある(IBM System p標準のRS-232Cポートは多くの場合、HACMPでサポートされていない)。
スプリットブレインシンドローム対策として、KA信号(経路)の多重化及び、特定のデバイスに特化しない事を前提とし、更にサービスノードより強制終了させる、孤立してしまった旧サービスノードはDeadman Switchにより「自爆」する、などが実装されている。
基本機能であるプロセスの起動時名称による監視はpsコマンドによるものだが、拡張機能としてHACMP5.1以降に追加されたユーザー作成によるシェルスクリプトを使用した拡張監視機能を使用すれば、多くのソフトウェアパッケージの細かい動作を監視する事が可能となった。
他社の一般的なクラスター製品と比較し、以下の指摘がある。
アプリケーションを登録する際の考慮点やカスタマイズすべきシェルスクリプトの数が多く、スキルが必要
サービス監視やサービスの依存リソースの監視などの機能が少なく、カスタマイズにはスキルが必要
設定がCUI画面(AIXではsmit)が基本であり、操作性が良くない
実績にはIBM製品(System p、DB2、MQなど)との組み合わせが多く、Oracle Database などの実績は(存在するが)比率は多くない
なお、AIX 6 の標準機能であるライブ・アプリケーション・モビリティーや、x86サーバで一般的なVMware ESX の VMotionなどと比較すると、HACMPは障害検知と引継ぎ開始が自動で行える反面、引継ぎ(および戻し)の最中にはサービス停止を伴う。
また、x86サーバでのVMware ESXのVMwareHAと比較すると、VMwareHAはハードウェア全体やESX自体の障害しか検知できないが、HACMPは対象ノード(OS)のハングやNIC障害も検知し引継ぎ可能である。
外部リンク
⇒日本IBM - PowerHA for AIX and Linux
⇒日立 - HACMP(EP8000、AIX用)
⇒HACMP システム計画と管理
カテゴリ: UNIX | IBM
更新日時:2008年8月17日(日)13:26
取得日時:2008/09/02 20:52