KDDIのEメール障害、「二年に一度の大規模なバージョンアップ作業中」……検証不足・障害対策不足を認める 2ページ目 | RBB TODAY

KDDIのEメール障害、「二年に一度の大規模なバージョンアップ作業中」……検証不足・障害対策不足を認める

エンタープライズ モバイルBIZ
注目記事
説明会に出席した二人
説明会に出席した二人 全 8 枚
拡大写真

■第1の障害

 4月16日0時35分、現行プロキシサーバと現行ユーザ認証サーバ(レプリカ)との間でユーザ認証エラーが発生。最大で200人のユーザがEメールサービスを利用できなくなった。これは手順書記載ミスによるコマンド誤りによって、本来接続されることのない現行ユーザ認証サーバ(レプリカ)と新ユーザ認証サーバ(マスタ)が接続されてしまったことが原因。この接続は想定外の接続で、事前の検証試験でも発見できなかったという。この接続によって現行ユーザ認証サーバ(レプリカ)上のユーザ情報データが一部欠損し、ユーザ認証エラーが発生、結果としてEメールサービスが利用できなくなった。この時点で影響があったのは最大200人と比較的小規模な障害だった。

 障害を解消するために、現行ユーザ認証サーバ(レプリカ)と新ユーザ認証サーバ(レプリカ)の切替を行い、1時41分には認証エラーは解消された。

■第2の障害

 同社は、第1の障害が解消されたため、バージョンアップ作業を続行。現行プロキシサーバから新プロキシサーバへの切替を順次実施していたが途中でタイムアウトエラーが発生。予期せぬエラーのため、現行設備への切戻しを決定。切戻し作業中、新ユーザ認証サーバ(レプリカ)2系のうち片系がハードウェア障害でダウン。4月16日8時8分、残っていた片系も過負荷でダウンし、最大288万人のユーザがEメールサービスを利用できなくなった。

 これについて嶋谷氏は「フェールセーフの考え方が足りなかった」と障害が起きた時の対策が甘かったことを認めた。4月16日13時29分、現行ユーザ認証サーバ(マスタ)への接続変更とメールBOXサーバの再起動を実施した。なお、最初のハードウェア障害の原因については分析中とのこと。

■第3の障害

 第2の障害解消後、中継サーバに滞留した受信メールにより、62台中24台のメールBOXサーバの高負荷状態が続いた。端末からのアクセス急増も重なって、メール送受信が利用しづらい状況となった。これについて嶋谷氏は、「立ち上げ方をもう少し小分けにしていれば問題なかったが、サービス復旧を急ぐあまり一気に立ち上げてしまった。手順に問題があった」と述べ、メールBOXサーバ再起動手順の考慮不足を認めた。

 また、メールBOX内のメールアドレス、カレンダー、リマインダーが端末上から見えなくなり、「アドレス帳が消える」障害も発生。これは、端末とサーバ間の同期処理に用いる情報に不一致が生じた際、端末上の連絡先がクリアされるという仕様によるもの。障害復旧後に新規連絡先を1件追加するなどしてメールBOXサーバと全データ同期が行われれば、正常に表示されるようになる。

 しかし、リアルタイム受信サービスでは、2012年6月27日以前に作成した連絡先情報について、サーバ側にデータを預かるサービスが提供されていなかったため、連絡先の復旧はできないという。今回、障害全体の問い合わせは約4万件、アドレス帳に関する問い合わせは約2400件、その内復旧できない可能性があるものは約180件あったという。

■同社の今後の対策

 第1の障害の原因となったコマンド誤りについては、手順書チェック、事前検証試験内容の見直しなどを社内の全システムに対して実施・徹底していくとした。第2、第3の障害についてはハードウェア故障原因の分析と対策決定とともに、二重障害や三重障害発生時の復旧手順の確立、メールの流量調整ツールの導入やメールサーバ・ストレージの増強などの対策を講じていくという。
  1. «
  2. 1
  3. 2

《》

特集

【注目記事】
【注目の記事】[PR]

この記事の写真

/

関連ニュース