AWS 東京リージョンで大規模障害が発生

昨日、2019年8月23日（金）の12:40頃から、アマゾンのクラウドサービスであるAWS（アマゾンウェブサービス、Amazon Web Services）で大規模な障害が発生しました。

f:id:breakthrough1020:20190824172046p:plain

21:00頃？から順次復旧し始めたので、約7～8時間はサービスが利用できない状況が発生しました。サービス復旧まで障害への応対、およびその後の復旧確認などの復旧作業で、遅くまで残業された方が多いと思います。

（今の世の中、諦めて帰った人もたくさん居るのかな？）

参考）2年前（2017年）アメリカのリージョンで発生した大規模障害の記事

breakthrough1020.hateblo.jp

昨日の障害は、日本の東京リージョン（AP-NORTHEAST-1 Region）にて発生し、日本の多くのサービスに影響があったため、色々とニュースに取り上げられています。

中身としては、仮想サーバであるEC2（Amazon Elastic Compute Cloud）と、データベースであるRDS（Amazon Relational Database Service）の2つのサービスを中心だったようです。（それだけではないように思っていますが）

コンシューマ向けのいわゆるB2Cサービスが利用できなくなったことで大きな話題になっています。

スマートフォンのQR決済のPaypay（決済を含め利用不可）、スターバックスの公式アプリ、ゼンショーホールディングスのファミリーレストラン「ココス」アプリ、ファーストリテイリングのユニクロとGUのアプリおよびWebサイト、ピザハットのアプリおよびWebサイト、名刺管理サービスのSansanの法人向け「Sansan」と個人向け「Eight」、クラウド会計ソフトの「freee」など。

他にもゲーム関連では、かなり多くの影響があったようです。

お昼すぎから、ドコモの携帯メールが一時的に届かなくなったのはAWSの問題かどうか分かりませんが、ドコモが運営するコミュニティサイクルや、dTVが使えなかったのはAWSなのではないかと思います（あくまで個人の推測ですが...）

お知らせ詳細 | 江東区臨海部コミュニティサイクル

金曜日の午後の障害だったので、その他の障害状況などは、それほど記事にはなっていませんが、日経新聞が「クラウド集中のもろさ」等の記事が掲載されています。

www.nikkei.com

記事によると、

"企業はコスト削減の一環で、自社でサーバーを導入する従来手法からデータセンターをインターネット経由で利用するクラウドにシフトしている。今回の大規模障害はクラウドに集中することのもろさを浮き彫りにした。"

これは、コスト削減が目的でAWSへ移行し、みんなAWSを使っているので大丈夫という妄想、というか思考停止ですね。

"今回の障害ではクラウドのもろさが露呈した。複数の企業がサーバーを共同利用するため、サーバーに不具合が発生すると今回のような大規模なシステム障害へとつながりやすい。利用する企業は復旧を待つほかない状況だった。"

これはそういうサービスです（安かろう悪かろう）

"一方、金融機関はシステムの中核部分ではAWSの利用を避けることが多い。三菱UFJ、三井住友、みずほの3メガバンクはAWSを一部使っているとみられるが、「影響はない」という。岡三オンライン証券やマネックス証券、カブドットコム証券などがAWSを一部で導入しているが目立った影響はなかった。"

賢明な金融機関は、重要（＝基幹系）システムではAWSを利用しない。おそらく企業内部の（＝情報系）システムではたくさん利用していると思いますが、「影響はない」とは「（コンシューマには、）影響はない（...行内はたいへんだが...）」ということ。まあ7～8時間も決済が利用できない銀行が、メイン銀行だったら、私なら即メイン銀行を変えますね。

"アマゾンの情報開示のあり方にも課題が残った。23日夕方時点でアマゾンは障害について日本語で公式の発表をしていない。情報を得るためにはAWSの稼働状況を公開している英語のサイトを見る必要があり、サービスを利用している企業や消費者には困惑が広がった。"

これはそういうサービスです（安かろう悪かろう）
あと、Twitterもあります

ちなみに、AWSのサービス提供状況は、サービスヘルスダッシュボードで提供されています。

https://status.aws.amazon.com/

昨日の状況です。

f:id:breakthrough1020:20190824174659p:plain

このWebサイトを見るしかない状況です。

しかも最もたちが悪いのが、時間がPDT（Pacific Daylight Time）、アメリカ西海岸のサマータイムなんですね。

PDT→日本時間（JST）は＋16時間となります。

Aug 23, 2:16 AM PDTは、日本時間では8月23日 18時16分です。

原因についての詳細な報告されていませんが、「冷却システムのトラブルがあった」という情報があります。

東京リージョンのひとつ、つまりひとつの"データセンター"がまるまる利用できない障害が、しかも7～8時間も利用できない障害が、日本で初めて発生したため、AWSを利用されている企業は、今後色々と考えさせられる事象になることは間違いないです。

AWS利用にあたって、マルチリージョンやマルチAZ（Multi-AZ）構成にしていないやら、仮想サーバ EC2（＝IaaS）や、データベース RDS（＝PaaS）を利用しているからで、SaaSやサーバレスを利用すべきだとかの話もありますが、そういうAWSのサービス構成のレベルの話ではなく、そもそもAWSが使えなくなった場合を考えておく必要があります。

クラウドはいつなくなるか分かりませんので。サービスと同じです。

breakthrough1020.hateblo.jp

今後はマルチクラウド（Azrure、Alibaba、GCPなど）が前提になるのかも知れませんね。

【2019年8月26日追記】

AWSから日本語で報告が出ました。

Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)

また、EC2（EBS）、RDSについてはサービスヘルスダッシュボードもきちんと日本語されていました。結局、2019年8月23日（金）の12:36から22:05の9時間29分のサービス停止でしたね。

EC2

Aug 23, 4:18 AM PDT 日本時間 2019年8月23日 12:36 より、AP-NORTHEAST-1 の単一のアベイラビリティゾーンで、一定の割合の EC2 サーバのオーバーヒートが発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンス及び EBS ボリュームのパフォーマンスの劣化が発生しました。このオーバーヒートは、影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の管理システム障害が原因です。日本時間 15:21 に冷却装置は復旧し、室温が通常状態に戻り始めました。温度が通常状態に戻ったことで、影響を受けたインスタンスの電源が回復しました。日本時間 18:30 より大部分の EC2 インスタンスと EBS ボリュームは回復しました。我々は残りの EC2 インスタンスと EBS ボリュームの回復に取り組んでいます。少数の EC2 インスタンスと EBS ボリュームが電源が落ちたハードウェアホスト上に残されています。我々は影響をうけた全ての EC2 インスタンスと EBS ボリュームの回復のための作業を継続しています。早期回復の為、可能な場合残された影響を受けている EC2 インスタンスと EBS ボリュームのリプレースを推奨します。いくつかの影響をうけた EC2 インスタンスはお客様側での作業が必要になる可能性がある為、後ほどお客様個別にお知らせすることを予定しています。