3/13突然サーバがブルースクリーンでこけたと思ったら、2度と起動しなくなりました。
POSTコードは0x67でした。
以前からコールドブート時にPOSTコード0x67で停止して起動しない、といったことが発生していましたが、再起動で普通に起動していたので、気にしていなかったのですが…。
発生していた事象は以下の通りです。
1.サーバセットアップ後、3DMark03を実行すると、ベンチの途中でエラーメッセージが表示されてベンチがこけた。
=>DirectXを最新版に更新するも改善せず。ベンチマシンではないため気にしないことにした。
2.次の日の朝サーバを起動すると、POSTコード67で停止して起動せず。
=>一旦電源OFFして再度電源投入したら起動したので、様子見としたが、コールドブート時にはほぼPOSTコード67で停止したため、以後24時間運用にした。
3.PC用液晶モニタと、液晶テレビでのデュアルモニタにしたところ、即ブルースクリーン発生。
=>ディスプレイドライバを最新にするも改善せず。
=>nVidiaのドライバの問題かと思いVGAをRadeon HD5870に変更したが改善しなかったので、デュアルモニタはあきらめた。
4.時々ブルースクリーンでこける、という現象が発生していたが、その内、POSTコード67のまま起動しなくなった。
=>エラーコードからするとCPUが原因、との判断から、予備のCPUに変更したところ無事起動した。
=>CPU入れ替え後は時々コールドブート時にPOSTコード67で起動しない現象があったが、ブルースクリーンもなく安定稼働していた。
5.動画エンコードソフトを使用すると、エラーメッセージが表示され、エンコード処理が完走しない。
=>普段エンコードを行っているクライアントで処理することにした。
6.そろそろiPad(3)が届くので、現在使用中のiPad2からデータ移行しようと思い、サーバにiTunesをインストールし、iPad2をUSBケーブルで接続したところ、ブルースクリーン発生。以後POSTコード67で停止し、CMOS Clear等を行うも起動せず。
7.次の日も起動を試みたが、やはり起動せず。
って感じです。サーバが使えないとどうにもならないので、代替のCPU(3960X)とマザー(ASRock X79 Extreme9)を発注し、届くまでの間に、原因を特定することにしました。
考えられる原因として、
・CPU
・マザーボード
・電源ユニット
・VGAカード
・メモリ
が考えられたので、現状で検証可能なこと、ということで以下を試してみました。
1.CPU交換
=>3号機で使用していた完動品の3960X C1があったのでこれを使用。合わせてこちらも完動品の電源ユニットHCP-1200に変更
=>改善せず。CPUと電源には問題なかったと思われる。
2.VGAを外して起動
=>改善せず。VGAも違うみたい
3.現在8枚挿さっているメモリを全て抜き取って、1枚のみを挿入して起動
=>DIMMスロットA1にセットして起動してみるも改善せず
=>DIMMスロットB1にセットして起動すると、起動成功したので、VGAを挿してBIOS設定に入れることを確認。
=>DIMMスロットA1に問題があることが分かったので、B1,C1,D1にメモリを挿してトリプルチャネルで起動してみると、OSまで問題なく稼働できた。
・・・と、一応なんとか起動することはできました。
ひとまずは正常に動作しているようですが、今日替えのCPUとマザーが届くので、いちおう入れ替えは行います。
できればこのようなことは2度と起こってほしくないですね。
(3/17追記)
本日、サーバ機のCPUとマザーを入れ替えて無事復活しました。
これでやっとメモリを8枚挿せるようになりました。
もちろんデュアルモニタも無事復活しました。
後はこのまま安定稼働してくれることを祈るのみです。