KDDIが4月16日から19日にかけて発生したiPhone/iPadでのメール障害の調査結果を発表
2013年4月25日 17:38
insiderman 曰く、 au版iPhone/iPadで4月16日から19日にかけて発生したメール障害について、KDDIがその調査結果を発表している(Eメールリアルタイム送受信システムの通信障害について)。
発生した障害は3つに分けられており、最初(2013年4月16日00時35分~01時41分)および2回目(2013年4月16日08時08分~13時29分)の障害では「サービスが利用不可」、3回目(2013年4月16日13時29分~4月19日02時54分)の障害では「サービスが利用しづらい状況」となっており、合計で68時間近く、最大で288万人に影響があったという。
障害の原因は、システムのバージョンアップ作業時のトラブル。事前にバージョンアップ後のソフトウェアを導入したサーバーを用意しておき、サーバーの接続を切り替えることでサービスの停止なしにアップデートを行う予定だったとのことだが、手順書のミスによって認証サーバーのマスター/レプリカ間でのデータ不一致が起きていたために一部ユーザーでメールが利用できない状況が発生したという。
この問題の修正後、続いて切り替えを進めたところ、「予期せぬエラー」が発生したためにアップデート作業を中止、現行設備への切り戻しを行ったが、その作業中にユーザー認証サーバーの片系がハードウェア障害でダウン、残りも過負荷でダウンしてサービスが停止、多くのユーザーでメールが利用できない状況になったそうだ。
さらにこの問題を修正後、「再起動手順上の問題および中継サーバに滞留した受信メールにより、62台中24台のサーバの高負荷状態が継続」したそうで、端末からのアクセス急増もありメール送受信が利用しづらい状況になったという。
これを受けて、今回の障害の原因として
手順書記載ミスによるコマンド誤り(事前検証試験不足)
HW障害(片系)と二重障害時の対策準備不足
メールBOXサーバ再起動手順の考慮不足 が挙げられており、4月~5月にかけて作業フローの見直しなどの対策を、そして8月末までにハードウェアの増強や負荷対策を行うとしている。
スラッシュドットのコメントを読む | ITセクション | ネットワーク | バグ | インターネット | IT
関連ストーリー:
LTEエリアはドコモが最も広く、通信速度はauが最大:日経BPコンサルティング調べ 2013年04月23日
KDDI版iPhoneのメール障害、45時間かかってやっと復旧 2013年04月19日
au、昨日に続いてまたiOSデバイス向けメールサービスで障害発生 2013年04月17日
auでメール障害、iPhone/iPadでezwebドメインのメールが送受信不可に 2013年04月16日
KDDI、年末年始に発生した障害について詳細を公表 2013年01月19日