KDDI、年末年始に発生した障害について詳細を公表

2013年1月19日 13:51

あるAnonymous Coward 曰く、 KDDIは16日、年末年始に発生した4G LTE端末でのデータ通信障害の原因と対策を説明した(ITmediaの記事日本経済新聞の記事ケータイWatchの記事)。

12月31日の通信障害は、LTEネットワークで使用する信号制御装置と信号中継装置で、セッションを解放するまでのタイマー値に不整合があったことが原因。タイマー値は信号制御装置で3秒、信号中継装置で2秒に設定されていたが、加入者プロファイルサーバーは通常0.1秒程度で応答するため、問題は発生していなかった。しかし、12月31日には加入者プロファイルサーバーがアクセス集中により無応答または認証遅延が発生し、信号制御装置で受け付けた信号が信号中継装置で破棄され、セッションが解放されてしまったとのこと。今後は信号制御装置のタイマーを1.2秒に変更するなどの対策を行う。

1月2日の障害は、信号制御装置で装置アラームの誤発報がきっかけ。装置アラーム発生時の手順書に不備があり、予備の装置に切り替えるべきところで装置全体の復旧措置を実施してしまったため、LTE端末とのセッションがすべて切断されてしまったとのこと。対策としては、手順書の整備や対応訓練などを実施済み。

このほか、1月1日にはau ID認証決済システムで障害が発生しているが、これは昨年11月にハード増強を実施した際にメモリー割り当て処理のパラメーターが誤っていたことが原因だという。メモリーの断片化が進んだ状態で負荷が高くなると障害が発生するというもので、認証処理の多い12月1日の段階では断片化が進んでいなかったため障害には至らなかった。その後断片化が進んだことから、1月1日に障害が発生したとのこと。対策として、パラメーター変更や監視項目の見直しなどを実施している。

 スラッシュドットのコメントを読む | ITセクション | モバイル | ネットワーク | スラッシュバック | バグ | 携帯通信

 関連ストーリー:
au の LTE 対応端末で再び通信障害 2013年01月03日
auのLTE対応端末で通信障害 2012年12月31日

 

関連記事

最新記事