Linuxサーバー・システム更新の苦労話-1-バックアップできない
こんにちは。匠技術研究所の谷山 亮治です。
今日から何度か、この数日取り組んできた、サーバーの調整を紹介します。今日は、システムの状況の説明です。
最近、一台のLinuxサーバーが、ちょっと不安定になりました。長時間の仕事をしていると、遠隔操作のSSHが繋がらなくなることがあります。そこで、クリーンインストールすることにしました。とはいえ、巨大なディスクを備えており、バックアップだけでもたいへんです。事前に遠隔操作をして、内部のバックアップ領域にコピーを試みたのですが、そのバックアップの過程でも止まることがあり、上手くいくときもあります。
障害が発生したと思われる時のログは僅かで、システム内部で全面的に使っているEXT4ファイルのエラーが記録されています。ファイスシステムが壊れ始めているのかもしれません。データー領域はミラー化されており、これまでの運用経験では、この構成で同様のエラーが発生したことはありません。ただ、過去ファイルシステムのエラーには一度だけ出会ったことがあり、その際もたいへんな苦労をしました。その経験から、その後のシステムは、簡明に組んでいます。しかしながら、今回の障害は、かなり深いところで発生しおており、障害解決までには、何度か手戻りが予想される容易でない状況です。完全に停止していない状況なので、先手を打って障害を解消し、安定運用に戻るという算段です。
次回は、遠隔で取った対策を紹介します。ファイルシステムの障害が意外な形で回避できました。