XFSファイルシステムが破損して泣きをみた★

昨日は朝一番に会社のサーバ(CentOS 7)がダウンして、再起動しようとしたらXFSファイルシステムが破損しているとかでシステムが起動できないという現象に遭遇。ハードウェアRAID1を組んでいたので、まさかファイルシステムのエラーで起動できないとは予想していませんでした。

XFS_WANT_CORRUPTED_GOTO エラーが発生し、システムが起動しない - Red Hat Customer Portal

https://access.redhat.com/ja/solutions/2967381

何の予兆もなく...いや、前日にRPMのデータベースが壊れているというメッセージが出て修復したばかりだったので、今となって思えばこれが予兆だったのかもしれない。 RPMのデータベースが壊れるような操作は何もしていなかったのだから...。

初めての経験でファイルシステムの復旧の目途が立たなかったので(下手すると全データを失うリスクがあり慎重な対応を求められた)、早急にバックアップ系統のサーバに切り替えましたが、こちらもバックアップが中途半端な状態になっていて(ディスク容量に余裕がなく、容量をセーブするようにしていたのが裏目に出ました)、まともに機能するようになるまで手作業で修正に追われていました(23時まで残業して対応しました)。

バックアップ系統も全く機能しなければ阿鼻叫喚だったな...。バックアップというものは滅多に使わないから、ついコストカットしがちになります。堅牢なシステムを提供するにはバックアップにも適正なコストをかけないとダメですね。東日本大震災でサーバを預けていたデータセンターが電源喪失でサーバを稼働できなくなり、急遽社内にサーバを立ち上げた以来のしんどい仕事でした。