goo blog サービス終了のお知らせ 

へたれエンジニア日記(旧跡地)

こちらへ引っ越しました。http://d.hatena.ne.jp/toritori0318/

システムの信頼性とか

2008-02-11 01:27:41 | ORACLE・MSDE・Postgres
今のうちのシステムは常時稼動が必須。
24時間サービスを提供し続ける必要があります。

その目的を果たすために
いろいろと負荷分散・冗長化を試みてるわけですが
そううまい事いかない訳でして。
こないだも1時間ほど停止してしまいました
(俺のせいじゃないですよ!)


しかもボトルネックはDBサーバなんですよ。
4台(×2)に負荷分散してるにもかかわらずこの有様。
たしかにDBへの問い合わせ数が異常に多いシステムなので
仕方ないんでしょうけど。
自分自身、こんなにリクエスト数が多いシステムは
経験してないのでアドバイスも出来ません。

しかし、まあ落ちるのはしょうがないにしても
すぐに復旧できるシステム構成になってなかったのは
良くなかった。
やっぱりこういう常時稼動のシステムの場合、
「いかにサーバを落ちにくくするか」よりも
「いかにすぐに復旧するか」を最優先して考えるべきですね。
MTTR(平均修理時間)を短くすると。
だって落ちちゃうときは落ちちゃいますから。

何十分もシステムが停止して、
その間クライアントに影響を及ぼしてしまうのは
システムとして不完全と言わざるを得ない。


実はDBクラスタリングも行っていましたが
それもうまくいかなかったんですよね。

ということは、もう「システム自体を冗長化」するしかないかなと。
DBサーバのレプリケーションを自前で行う感じですね。
…といったことも提案してみようかな。



しかしまあ今回の一件でpostgresの事も
勉強しなきゃいかんなーと思いました。
だって内部構造が全然わからんもん。
そうすれば今の環境で出来ることが見えてくると思うし。
そして何だかんだでOracleは偉大なんだということもわかりました。
やっぱOracleやりたいなー。

なんだかもっとシステムの事もDBの事もOracleの事も
勉強したくなってきました。
資格に対しても今までと違って
「一応取っておこうかな」というスタンスではなく
「本当に身になる勉強がしたい」という気になってきた。
とりあえず11g移行試験が出来たら取得しようかな。

みなさんも、一つのDBに固執するのではなく
いろんなDBに触ってみて欲しいです。
それで見えるてくる事ってすごく大きいと思いますよ。


最新の画像もっと見る