Cloudflare、ケーブルを誤って抜いてしまい4時間以上の障害発生
2020年4月21日 18:17
4月15日、コンテンツ配信サービスCloudflareのダッシュボードやAPIに約4時間21分にわたってアクセスできない状態が発生した。原因はデータセンター感を接続するファイバー接続の設定ミスだという(Publickey、Cloudflare)。
Cloudflareではこの時間帯にデータセンターの1つでメンテナンスを計画しており、技術者にとあるキャビネット内に収容されている未使用状態になっていた全機器を取り外すよう指示していたという。このキャビネットは外部への接続のためのパッチパネルへと接続されており、この作業時に誤ってパッチパネルのケーブルを抜いてしまったのが障害発生の発端になったそうだ。
これによってダッシュボードへのログインやAPIの使用、各種設定変更などの操作が行えなくなっていたとのこと。コンテンツ配信機能やセキュリティサービスなどへの影響はなかったという。Cloudflareは外部との全接続を1つのパッチパネルに集約していたことがトラブルの原因だったとし、接続を分離するとともに、トラブルを解決しやすくするためにケーブル接続に関するドキュメントを用意する、技術者にケーブルには触らないよう指示を出す、といった対策を行うとしている。