AWS で4時間以上に渡る大規模障害が発生

【追記】2019年8月23日に発生した東京リージョンの障害はこちら

breakthrough1020.hateblo.jp

f:id:breakthrough1020:20170302232025p:plain

昨日（2017年3月1日）、アメリカ現地時間では、2月28日11:00 am から2:00 pm、日本時間では、3月1日AM 4:00からAM 7:00までの約3時間の間（実際には、AM2:37からAM7:00まで4時間以上）、AWS（Amazon Web Services）の米国東部バージニア北部、リージョン（us-east-1）のストレージS3（シンプル・ストレージ・サービス）で広範囲な障害が発生しました。（以後は、日本時間で記載）

AWSのTwitter(@awscloud)では、AM 4:17に

「S3 is experiencing high error rates. We are working hard on recovering.」

（S3で高いエラーレートが発生しています。回復に努めています。）

「The dashboad not changing color is related to S3 issue. See the banner at the top of the dashboad for update.」

（S3の問題でダッシュボートは色が変わっていない。更新情報はダッシュボードの上部バナーを参照ください。）

AM 4:00過ぎに障害が発生し、AWSで唯一サービスの稼働状況が把握できるダッシュボードが、このS3の問題で正しい情報が表示できなくなっていました。

Amazon S3は14万8213のウェブサイトが利用しており、12万1761のドメインが運用されているとのことですが、他サイトの情報によると、影響を受けているサイト・サービスとしては、Adobe、iCloud、Q&AのQuora、ニュースレター配信サービスのSailthru、ニュースサイトのBusiness Insider、Giphy、S3が画像をホスティングしている各種yメディア、Slackにおけるファイル共有など多数だ。スマートサーモスタットなどホームIoTのパイオニアであるNestにも障害が発生しており、デバイスのコントロールが不可能になっているとのことです。

そして、私の利用している Runkeeper でも、Twitter（@RKSupport）でAM 4:10に

「Our app is currently impacted by an AWS Service outage. Sorry for the trouble! We're working with them to resolve this as soon as possible.」

（私たちのアプリは現在、AWSサービスの停止の影響を受けています。ご迷惑おかけして申し訳ありません。私たちはできるだけ早くこれを解決するために彼らと協力しています。）

そして5時間後のAM 9:23になってようやく

「All issue from earlier today hava been resolved ! If you're having any problems with your Runkeeper app please email support@runkeeper.com」

（今日発生していたすべての問題は解決されました。Runkeeperアプリに問題がある場合は、サポートまでメールをください。）

実際には4:00ごろから9:00過ぎまでAWSで不具合が発生していたようで、今朝たまたまRunkeeperを利用してランニングをしていたのですが、7:00から9:30過ぎまでは、まったくアプリが使えない状態でした。

11:00頃になってやっとアプリが正常に利用することができ、同期されていなかった今朝アクティビティ（ランニング情報）を無事送信することができました。

ちなみに、S3はよく99.999999999％（イレブン・ナイン）と表現されていますが、これは可用性（稼働率）ではなく、耐久性のことで、AWSいわく「1万個のオブジェクトが格納されている場合、単一のオブジェクト損失が発生する予測平均発生率は1,000万年に1度」というまったく意味不明な内容です。

そして、実際の可用性（稼働率）は明確には定義されておらず、正しくコミットメントされているわけではないですが、年間99.99％、つまり年間52.56分（0.88時間）停止なので、今回は3時間以上停止しているので年間の可用性（稼働率）は守れていないです。

Amazon S3 サービスレベルアグリーメントには、99.0％以上 99.9％未満の場合には10％、99.0％未満の場合には25％のサービスクレジットを提供することになっています。要するに、使えなかったらお金を返す、です。

また、サービスクレジットとは、サービス利用者がAmazon S3 の将来の支払いに対してのみ利用が可能なクレジットのことで、要するに、99.0％未満になっても、その月の利用料金は100%支払いを行う必要があり、翌月の利用に対して割引をしてやるよ、というとんでもなくAmazon側に優位な内容です。

さらに、サービスクレジット請求は、とんでもなく手間がかかります。

手間とサービスクレジットでもらえる金額を考えると、請求をしない場合も多いのではないでしょうか？

いずれにせよ、日本リージョンでなくてよかったです。

もし日本でこの障害が発生していたら、クラウドファースト信者の人々は、とんでもないことになっていたと思います。

AWSの代わりに、障害の説明・報告に奔走していたことでしょう。

AWSで大規模障害が発生しているのに関わらず、日経クラウドファーストから呑気なニメールマガジンが飛んでくるのも、日経BPはセンスないなぁと思います。

せめて3月1日は仕方なくとも、3日のメールには障害のことを記載すべきでは？

3月1日 9:00 メガバンク MUFGがクラウドファーストの方針公表、10年で500システムをクラウドへ
3月3日 9:00 DeNAがAWSとGCPでAI基盤を構築

それから、TwitterがAWSで稼働していたら、もうどうしようもない状態になっていたと思います。

【追記】翌日、AWSから今回の障害について報告が提示されました。

Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region

「Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended. 」

（残念なことに、コマンド入力の1つが間違っており、より大きなサーバーセットを意図せず削除してしまった。）

原因はなんとオペミスでした。

あと、実際には、午前9時37分（PST）にオペミスが発生して、午後1時54分（PST）に復旧完了したとのことですが、復旧が完了しても、作業のバックログが蓄積されており、完全復旧までには追加の時間が必要だったとのこと。

つまり、日本時間 AM 2:37 から AM 6:54（＋追加時間）までの4時間以上の障害だったことが明らかになっていますので、タイトルも3時間から4時間以上に変更しました。

IT系会社員ブロガー

某IT企業に勤める40代会社員の雑記帳

AWS で4時間以上に渡る大規模障害が発生