作業手順書記載ミスがきっかけで連鎖……KDDI、Eメール障害の詳細な報告書を公開
ブロードバンド
その他
注目記事

それによると、Eメールリアルタイム送受信システムのバージョンアップ作業時に、3つの問題が発生したのが、今回のトラブルの原因だとしている。
まず第1段階として、バージョンアップ作業の途中で、現行プロキシサーバにて認証エラーが発生、一部ユーザーでEメール サービスが利用できない状況が発生した。これは、手順書記載ミスによるコマンド誤りで、切り替えたはずの新認証サーバではなく、従来の認証サーバに誤って接続された結果、ユーザ情報データが一部欠損したため、ユーザ情報が不一致となり発生したものだった。
そこで、正常な新ユーザ認証サーバに切り替える作業を続行し、現行プロキシサーバ等の参照先を新ユーザ 認証サーバへ切替えて、認証エラーを解消。さらに作業を続行したが、途中でタイムアウトエラーが発生した。そこで現行設備への切戻しを決定し作業を開始。切戻し作業中に新ユーザ認証サーバの片系がハードウェア障害でダウン。その後、残っていた片系も過負荷となりダウン、第2段階としてEメール送受信が不可となった。
そして、サーバを再起動したが、再起動手順上の問題および中継サーバに滞留した受信メールにより、62台中24台のサーバの高負荷状態が継続。第3段階としてメール送受信が利用しづらい状況になったとのこと。
KDDIでは、今回の原因を「手順書記載ミスによるコマンド誤り(事前検証試験不足)」「HW障害(片系)と二重障害時の対策準備不足」「メールBOXサーバ再起動手順の考慮不足」としており、今後順次、対策を実施する予定。
《冨岡晶》
特集
この記事の写真
/