ANAの世界初のバグによるシステム障害に思うところ
結構大規模な障害で、TVでも報道されていたのでご存知の方も多いと思いますが、2016年3月22日にANA(全日本航空)の国内線システムで障害が発生し大混乱した事件について。
IT系企業に勤めているため、今回のシスコ(Cisco)に限らず、「世界初のバグ」って言うのには、思いの外(?)しょっちゅう(!?)出会っていることもあり、「シ◯コ、またかいな~」というレベルで思っていたのですが、意外にもIT系ではない方からは、「ANAの障害って、世界初のバグなら仕方ないよなぁ~」ってことを聞きました。
詳細なことは関係者ではないので分かりませんが、Web上では
- 障害があったのは、Cisco(シスコ)のCatalyst(カタリスト) 4948E
- 2010年6月の発売開始以降、世界で4万3,000台、うち日本で8,700台を販売しているが、今回の不具合は初めての事象
- スイッチは完全に故障したわけではなく、不安定な状態で動作していた
- 代替機に交換したことでシステムを復旧できた
- 不具合の事象をすぐに再現できた
システム構成などはよく分かりませんが、ぶっちゃけよくある話しですね~。
スイッチの動作不安定、ハングアップなんてよくあります、しょっちゅうあります。
こんなことは普通は想定範囲の障害なのに、代替機に交換するまで復旧できなかった。
つまり、ANAが問題なのは、スイッチのハングアップ程度のことを想定外としていたことですね。
よくまぁこれまで"飛行機"という社会インフラなのに、この程度ことが考慮されていなかったとは驚きです。
あと、よく勘違いされているのは「Catalyst 4948Eは世界で4万3,000台、うち日本で8,700台出荷されている」ので、ANAのスイッチだけが運が悪かった。みたいな話しもありますが、Catalyst 4948Eだけではなく、スイッチにもソフトウェアが導入されています。
シスコの場合は、Cisco IOS(アイオーエス ※iPhoneのやつではなく)というOSが入っており、それぞれバージョンがあります。
世界で4万3,000台あってもIOSバージョンが異なりますので、Catalyst 4948Eで、ANAと同じIOSのバージョンを使っているのは、一体どれだけかはCiscoさえも把握していません。実際のところ、かなり少ないはずです。
そして意外にも(?)このIOSってのは、Windowsほどではないですが、バグだらけで、しょっちゅうパッチが出ています。まぁ所詮プログラムは人間が作ったものなのでしょうがないですね。
常に最新バージョンにしないといつバグに遭遇するか分からない状態なのです。
ここからは推測ですが、おそらくANAのスイッチはIOSを最新バージョンにしていなかったのではないでしょうか?
すぐに事象を再現できたとかの報道もあったので、おそらくシスコのIOSの既知のバグに引っ掛かったのではないかと思っています。
本当に「世界初のバグ」、これまでに発生したことがない動作であれば、そんなに早く原因が分かる訳がないです。事象再現だけで相当の工数と時間が掛かるはずです。
日本ユニシスに損害賠償をするという報道も出ているので、これは間違いなく、
(日本ユニシス)「今回の障害は、シスコのIOSの既知のバグにあたったことがすぐに分かりました!」
(ANA)「なんで、そんな致命的なバグのことを先に言わなかったんだ。もし事前に知っていればIOSをバージョンアップしていたので回避できたはずだ!」
みたいな、行き場のない怒りを「タラレバ」に変換しているのかと。
いや~ユニ◯ス(いや~ユ◯アデックス)可哀想。
まぁ、私はこんな「世界初」「日本初」「過去に発生したことがない」「過去に事例がない」バグにはしょっちゅう遭遇しているため「メーカ様お断り!世界初のバグ情報共有UG(ユーザグループ)」に所属しています。
シ◯コだけなく、ハードウェア、ソフトウェアすべてを網羅しており、世界初のバグを各企業が情報提供し共有するユーザグループです。(紹介制・会費制)
よって、そもそもシ◯コが、今回の事象は「世界初でして..」と言ってきても、「嘘つけ、◯△社で過去に発生しているじゃないか!」と簡単に論破できますけどね。
紹介制なので、入会されたい方は、ご連絡ください(笑)