AWS停止の原因はメモリリークと それをモニタしアラームするシステムの不具合だった

2012年10月30日 06:00

印刷

記事提供元:スラド

あるAnonymous Coward 曰く、 先週の月曜日、10月22日に起きたAmazon Web Servicesのサービス停止は、Redditやそのほかのメジャーなサービスにまで被害が及んだが、その原因はメモリリークとモニタリングシステムの不具合だった(TechCrunchITmedia)。

 金曜日夜のサポート記事でAWSは、一台のデータ収集サーバを単純にリプレースしたあとに問題が生じた、と説明している。インストール後にそのサーバは、DNSのアドレスを正しく伝送せず、そのためほんの一部のサーバがメッセージをもらえなかった。それらのサーバは問題のサーバに何度もアクセスを試み、それがメモリリークを生じさせ、さらに内部のモニタリングのアラームが不具合だったため、制御不能に陥った。システムは最終的に仮想停止に追い込まれ、何百万もの顧客が痛い目に遭った。

 スラッシュドットのコメントを読む | ITセクション | バグ

 関連ストーリー:
ドコモの国際ローミングサービスの障害、原因は国際共通線信号網の輻輳 2012年08月30日
富士通の館林データセンターで電源障害、複数の銀行やニフティのサービスに影響 2012年07月24日
2月29日に発生したWindows Azureのトラブルは証明書の有効期限計算が引き金だった 2012年03月15日
Windows Azureでうるう年に関連するバグ、管理不能に陥る 2012年03月01日

 

※この記事はスラドから提供を受けて配信しています。

関連記事