完璧なシステム障害対策はない

2007-06-04 13:41:31 | セキュリティ

okanyanさんのエントリより

http://blog.goo.ne.jp/okanyan/e/97c5fb391731aaf552c100f4d09a7513

>エンジニア側は，当然システム更新時には様々な障害を想定した「危機管理マニュアル」を事前に作成し，トラブルに応じた対応を行っているはずです。

　そうなっている「はず」なんですが．．．

　残念ながら多くの企業ではその「はず」が実現していないのが実情なんですね。

　弊ブログ子が過去かかわった上場企業のシステムは例外なく「遺漏あり」の管理マニュアルばかりでした。たぶんこの部分では障害が起きない「はず」という前提で作られていたりして、結果的にその起きないはずの箇所で障害が起こったという事例には事欠かないというところです。

　たとえば全世界に名をとどろかすグローバル企業Ｓ社の某システム。メインのサーバこそサンのン百万円もする電源まで二重系化された重厚なもの。ところが実際に運用に入って１ヶ月ほどで大規模障害が。

　ダウンしたのはサブシステムを受け持つ安価なＲＡＩＤ装置。ＲＡＩＤ５だから万一ＨＤＤに障害が発生してもホットプラグで即座に交換すればＯＫ、というマニュアルだったのですが、実際にはＲＡＩＤ装置本体が故障。すべてのデータが一瞬で失われました。もちろんテープバックアップは月に1度だけなので、まるまる一ヶ月近くのデータがパーに。

　おまけに予算の関係（この会社、名前の立派さとは裏腹にいかに徹底的にコストを掛けずにプロダクトを作るかが重視されているのは業界で有名らしい）で、超チープなメーカー（社員が1桁の零細）のＲＡＩＤ装置だったため、サポート（宣伝文句では「完璧」の２文字が踊っていた（笑））がほぼゼロ。再度同じ装置を調達するのに２週間以上かかる始末。

　で、その間サブシステムにかかわる部分のサービスは完全停止に追い込まれた、というわけです。

　自信満々で鼻持ちならないほど天狗だったこのサブシステム担当者の鼻先が見事にへし折られたのにはなんともいえないものを感じたのは昨日のことのよう。

　他にもこの手の話は山ほどあるのですが、結論としては１００％とまらないシステムを作っている企業はむしろ例外といえるのでは、ということです。

2024年8月
日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

無量大数 － １０の６８乗の世界

個人用ストレージもテラバイトオーダーに到達した昨今、世界に散らばるさまざまなジャンルのトピックを拾います。

完璧なシステム障害対策はない

1 コメント

コメントを投稿

無量大数　－　１０の６８乗の世界