アマゾンのクラウドサービス、4時間停止で損失額1億5千万ドル
2017年3月19日 20:53
2月に発生したクラウド最大手のAWSの大規模障害について、原因がひとりのスタッフのコマンド入力ミスだったことが判明した。4時間以上にわたって停止したクラウド型ストレージサービス「amazon S3」は、AWSの中核を担うサービスで、世界中の企業や個人のほか政府も利用する重要インフラ。現在多くのサービスはクラウド上での活用が前提となっており、大手ネットショップやWebメディア、身近なものではチャットサービスの「Slack」や、プロジェクト管理サービス「Trello」などにも影響を与えた。この障害による推定被害額は1億5000万ドル(約171億円)と試算される。
アマゾンは、障害の発端となったのがバージニア州北部の施設での定期メンテナンスで、スタッフが誤ったコマンドを実行したことと発表。複数台のサーバーをオフラインにする過程で、計画されていた以外のサーバーを大量にオフラインにしてしまい、そのなかにシステム全体の基本プロセスが稼働しているサーバーが含まれていたとのこと。S3サービスには同社の社内システムなど、さまざまなシステムと依存関係にあり、このことが障害の規模をさらに大きなものにした。
大規模なクラウドサービスの障害としては2014年11月に「Microsoft Azure」が約11時間にわたって停止。全世界に影響を与えた。この障害の原因は、アップデート用のソフトウェアのバグで、今回のAWSの障害と同様、システムへのコマンドの適用を一斉に行ったため障害の範囲が大きくなった。クラウドサービスではサブシステムで細かく分割して障害の範囲を限定する設計が求められる。同社ではすでに防止策としての安全装置を設置し、短時間に多くのサーバーを停止できないようにしている。また、99.999999999%の耐久性を持つよう設計されたAmazon S3において発生した今回の障害で、どんなに対策を施したとしても、障害が起こる可能性はゼロではないことが確認された。企業や政府の重要システムが中央集権型のクラウドサービスに依存して設計されている現状は、大きなリスクをはらんでいることは間違いない。(編集担当:久保田雄城)