「運用によって知恵が蓄積され、進化するシステム」——富士通研のクラウド向け障害対処技術
エンタープライズ
その他
拡大写真
富士通研究所は23日、クラウドシステムにおける障害予兆の検知から障害原因の絞り込み、障害の解決までを自動実行する技術を開発したと発表。富士通本社にて同技術の記者説明会を開催した。
記者発表会は、富士通研究所から常務取締役の近間輝美氏、フェローでクラウドコンピューティング研究センター長の坂下善隆氏、同センター主席研究員の安達基光氏の3名が出席。近間氏からクラウドコンピューティング時代に向けた同研究所の取り組みが紹介された後、坂下氏より技術紹介があり、安達氏による障害予知から解決までのデモが行われた。
従来システムの障害対応が、属人化されかつ障害発生直後から対処を開始する事後対処型であるのに対し、今回富士通研究所が開発した障害対処技術は事前回避型。システムメッセージや通信パケットの分析により科学的に障害予兆を検知し、さらに構成情報を使って障害箇所を推定した後、障害対処履歴などを活用して適切な対処法を提示する。こうした、監視から予兆、診断、対処までの一連の処理を自動で実行する技術は業界初だという。今回開発した技術は、2010年10月に開始される富士通の「オンデマンド仮想システムサービス」および「LCM監視サービス」に順次適用される。
障害の予兆は、障害時のメッセージに特定のパターンがあることに着目し、システムメッセージの分析によって行う。過去の運用・障害報告や構築・試験時の情報から抽出された「障害メッセージパターンデータベース」と、実運用のメッセージをマッチングさせることにより、予兆を検知する。マッチングに使用される障害メッセージパターンデータベースは、既存障害パターンの繰り返し学習と新規障害の追加学習によって自動更新されていき、その際、「ベイズ学習」と呼ばれる確率論的方法を用いて障害パターンを重み付けし、検知精度が向上していく。坂下氏は「自動学習するデータベースのため、他ベンダー製品のメッセージであっても学習精度が落ちることはない」と語り、マルチベンダー対応の技術となっている。
また、メッセージが出力されない潜在的障害に対しては、10Gbps対応高速パケットキャプチャおよび品質・性能分析によってネットワークを監視・診断することにより、パケットのロス、遅延時間などの振る舞いから障害を予知する。
障害原因の絞り込みは、予兆に対応する起点からさかのぼった結果を重ね合わせることで障害箇所を迅速に特定する。加えて、システムの構成を抽象化した形で管理することにより、IPアドレスを変更しても容易に対応できるという。
予兆検知のデモでは、運用管理者が運用管理ダッシュボードを使って予兆を検知して解決するまでの様子が紹介された。管理者が予兆検出ボタンを押すと、障害名、関連するメッセージID、発生確率が表示される。そのうちの1つの障害を選択すると、障害個所がグラフィカル表示され、さらに起点調査をかけることで障害起点候補を特定でき、対処方法が画面表示され、管理者はこの対処方法に従ってトラブルシューティングを行う。
本技術を富士通の社内システムに適用したところ、ネットワークの誤設定を障害発生前に検出することができたほか、障害対応窓口業務においても、従来平均で16分かかっていた障害対処を1.5分まで短縮できたという。
近間氏は、本技術のポイントとして「富士通研究所の蓄積された経験や知恵が活用される」点と「運用によって知恵が蓄積され、進化するシステムである」点をあげたうえで、「運用管理のノウハウがデータベースに蓄積されてどんどん高度化していく技術。こうした知の資産を持っていることが、クラウドサービスを提供する富士通データセンターの差別化ポイントにもなる。他社が似たようなものを出してきたとしても、我々はこれまでの経験をこのデータベースの中に埋め込んで対抗していきたい」と語った。
記者発表会は、富士通研究所から常務取締役の近間輝美氏、フェローでクラウドコンピューティング研究センター長の坂下善隆氏、同センター主席研究員の安達基光氏の3名が出席。近間氏からクラウドコンピューティング時代に向けた同研究所の取り組みが紹介された後、坂下氏より技術紹介があり、安達氏による障害予知から解決までのデモが行われた。
従来システムの障害対応が、属人化されかつ障害発生直後から対処を開始する事後対処型であるのに対し、今回富士通研究所が開発した障害対処技術は事前回避型。システムメッセージや通信パケットの分析により科学的に障害予兆を検知し、さらに構成情報を使って障害箇所を推定した後、障害対処履歴などを活用して適切な対処法を提示する。こうした、監視から予兆、診断、対処までの一連の処理を自動で実行する技術は業界初だという。今回開発した技術は、2010年10月に開始される富士通の「オンデマンド仮想システムサービス」および「LCM監視サービス」に順次適用される。
障害の予兆は、障害時のメッセージに特定のパターンがあることに着目し、システムメッセージの分析によって行う。過去の運用・障害報告や構築・試験時の情報から抽出された「障害メッセージパターンデータベース」と、実運用のメッセージをマッチングさせることにより、予兆を検知する。マッチングに使用される障害メッセージパターンデータベースは、既存障害パターンの繰り返し学習と新規障害の追加学習によって自動更新されていき、その際、「ベイズ学習」と呼ばれる確率論的方法を用いて障害パターンを重み付けし、検知精度が向上していく。坂下氏は「自動学習するデータベースのため、他ベンダー製品のメッセージであっても学習精度が落ちることはない」と語り、マルチベンダー対応の技術となっている。
また、メッセージが出力されない潜在的障害に対しては、10Gbps対応高速パケットキャプチャおよび品質・性能分析によってネットワークを監視・診断することにより、パケットのロス、遅延時間などの振る舞いから障害を予知する。
障害原因の絞り込みは、予兆に対応する起点からさかのぼった結果を重ね合わせることで障害箇所を迅速に特定する。加えて、システムの構成を抽象化した形で管理することにより、IPアドレスを変更しても容易に対応できるという。
予兆検知のデモでは、運用管理者が運用管理ダッシュボードを使って予兆を検知して解決するまでの様子が紹介された。管理者が予兆検出ボタンを押すと、障害名、関連するメッセージID、発生確率が表示される。そのうちの1つの障害を選択すると、障害個所がグラフィカル表示され、さらに起点調査をかけることで障害起点候補を特定でき、対処方法が画面表示され、管理者はこの対処方法に従ってトラブルシューティングを行う。
本技術を富士通の社内システムに適用したところ、ネットワークの誤設定を障害発生前に検出することができたほか、障害対応窓口業務においても、従来平均で16分かかっていた障害対処を1.5分まで短縮できたという。
近間氏は、本技術のポイントとして「富士通研究所の蓄積された経験や知恵が活用される」点と「運用によって知恵が蓄積され、進化するシステムである」点をあげたうえで、「運用管理のノウハウがデータベースに蓄積されてどんどん高度化していく技術。こうした知の資産を持っていることが、クラウドサービスを提供する富士通データセンターの差別化ポイントにもなる。他社が似たようなものを出してきたとしても、我々はこれまでの経験をこのデータベースの中に埋め込んで対抗していきたい」と語った。
《柏木由美子》
特集
この記事の写真
/