2月29日に発生したWindows Azureのトラブルは証明書の有効期限計算が引き金だった

2012年3月15日 09:00

印刷

記事提供元:スラド

insiderman 曰く、 日本マイクロソフトが、2月29日に発生したWindows Azureのトラブルについて、その原因を米MicrosoftのBill Laing氏によるレポートの翻訳という形で報告している。

これによると、2月29日のトラブルはやはりうるう年が原因で、Windows Azureを提供するクラスターシステム内でやり取りする「転送証明書」の有効期限計算にミスがあったのが引き金になったという。これらの証明書では作成日の1年後が有効期限として設定されるのだが、2012年2月29日に作成された証明書では有効期限が「2013年2月29日」という存在しない日付に設定されてしまい、そのため証明書の作成自体が失敗してしまうという。

 転送証明書は新しい仮想マシンを作成する場合などに作成され、証明書の作成に失敗した場合は仮想マシンの作成自体も失敗する。Windows Azureでは仮想マシンの作成に失敗するとリトライを試みるが、3回連続で失敗すると「ハードウェア故障」と見なされてそのサーバーは待機状態となり、そのサーバーで動いている仮想マシンがほかのサーバーに移動されるという。しかし、仮想マシンを他のサーバーに移動させる際にも転送証明書の作成が必要となり、結果的に他のサーバーでも同様のことが繰り返されて次々とサーバーが待機状態になっていったという。

 問題が発生したのは28日の0:00(GMT)で、2:38に不具合を特定、
2:55にクラスターのサービスマネージメント機能を停止、ソフトウェアの更新コードは7:20に準備でき、テストしたうえで10:11には修正プログラムの展開を開始したという。ただし、一部のクラスターでは最新ではない管理ソフトウェアのままだったため個別の対応が行われたのだが、そこでミスが発生、ネットワークから切り離されるというトラブルも発生していたようだ。これらの問題を解決できたのは翌日の10:15分だったという。

 スラッシュドットのコメントを読む | ITセクション | バグ | Windows | IT

 関連ストーリー:
バッファロー、レコーダ予約がうるう年処理で動作しない問題 2012年03月06日
Windows Azureでうるう年に関連するバグ、管理不能に陥る 2012年03月01日
シャープのBD/DVDレコーダーでうるう年に関連するバグ 2012年02月29日
Zuneとgigabeatが閏年の処理の問題でフリーズ 2009年01月01日

 

※この記事はスラドから提供を受けて配信しています。

関連記事