[Synology] NASのRAID HDDにエラーが出た – HDD交換の手順 [2022/10/15] ID40357

Synology NASのRAID HDDの1つが故障

NASのHDDにエラーが出た。5年程度連続稼働していたRAIDを構成するHDD (以下HDD a)の一つです。NASに発生するイベントは、メール通知するようにしていたので、不良セクタが出始めたことは1ヶ月前から分かっていた。

とうとう今日、そのイベント通知には「失敗(Fail)」の文字があった。

HDD aは、Synology製品のNASとして、僕がDS918+に対して最初に導入した1台構成のHDDでした。システム構築時の設定では、その後に追加するHDDをRAID構成できるようにしていました。その後は,順次HDDを増設していき、そのNAS、すなわちDS918+は,フル構成の4台HDDになっていました。

最近、DS1621xs+を導入した時に,DS918+のHDD aを含む全てのHDDをDS1621xs+に移行,および新品の8TB HDD,2台を追加して継続して使用していました。具体的には、DS918+では4ベイですが,DS1621xs+では6ベイなので,新しくHDDを2台追加して6台HDDとしハイバネーションなしで連続稼働させていました。

今回、最も稼働時間が長かったHDD aが故障した訳です。

故障までにかかった期間はHDD aの稼働時間から推定すると,約5年の稼働年数でした。

今回の故障イベントでは、不良となったHDDを新しいHDDに交換したので、その作業手順(修復;repair)を中心に解説します。

DS1621xs+のHDD構成

DS1621xs+にインストールしたHDDの構成は,以下の通りです.

すべてのHDDは,WD, 8TB HDD Red (or Red Plus)を使用しています.今回,故障した8TB HDDのリプレースには,普通の対応として同じ容量の8TB (2.8万円)で行おうと思いましたが,さらに大きなな容量の12TBを用いることにしました.大きなサイズ違いのHDD追加で,どうなるのかの興味が大きな理由です.

これから先,現在では健康状態にある残りのHDDも劣化が進み不良セクタが増えて「失敗」というステータスを吐くことは必然です.その都度,12TBに置き換えていければと考えてのことです.交換が必要な頃には,今回,4.5万円で購入したWD 12TB HDD Red Plusの価格は,もっと低価格になっていると思われます.すべての8TB HDDが12TBに置き換わったとき,現在のストレージの簡易的計算容量は,(8×(6-1)) = 40TBから(12×(6-1)) = 60TBに増加します.その時までの先行投資です.

ストレージプール1を構成しているディスク1のステータスが失敗を示している.構成しているディスクの容量はすべて8TBです.今回のディスク1の修復には,12TBを使用することにした.
図1. ディスク1のエラー状況

修復(repair)

図1の状態から,DSMをシャットダウンさせて,故障した8TB HDDのディスク1を抜き出し,12TBのHDDに交換しました.その後,DS1621xs+を再起動させました.

再起動後には,DS1621xs+から「ピーッ,ビーッ」と一秒間隔でアラート音が鳴り始めました.このアラート音は,修復作業の開始まで鳴りやみませんでした.

再起動後にDSMにログインして,乗せ換えたHDDに対してS.M.R.Tを実行しました.約2分後にS.M.R.T処理は完了しました.

その後,乗せ換えたHDD (ディスク1)の健康状態を確認してから,「修復」を実行しました.修復完了のパーセント値が表示され始めた時に,アラート音が停止しました.

修復時間の残り時間は,約14時間が表示され,カウントダウンが開始されました.修復開始されるとアラート音も停止し,通常のHDDを使用できる状態になっています.通常の運転状態ということなので,HDDへのアクセスも可能です.

データ スクラブ

修復 (約14時間後)が完了すると,データ スクラブ (Data Scrubbing)が実行されます.Data Scrubbingは,以下の2つの処理 (ファイル システム スクラブ,RAID スクラブ)が連続して実施されます.

  1. ファイル システム スクラブ:Btrfs ファイル システムのボリュームのチェック.チェックサムでデータ不一致が検出されると、システムはバックアップを使用してデータを修復しようとする.ファイル パスはログ センターに記録される.
  2. RAID スクラブ:SHR(3 台以上のディスクで構成)、RAID 5、および,RAID 6 のストレージ プールで実施される.検出されたデータの不整合は復元される.

Data Scrubbing – Synology site –

https://kb.synology.com/ja-jp/DSMUC/help/DSMUC/StorageManager/storage_pool_data_scrubbing?version=

以上

まとめ

いずれは,Synology NASのHDDエラーが出ると思っていましたが,その日は早く来ました.NASでは,データ整合性を厳密に管理するのが本来の機能なので,「Synology NAS」よ.ナイス.

Synology NASでは,PCでは見過ごされがちであるHDDの劣化について敏感に感知するように設定されています.PCのデータのバックアップは,RAID構成のNASにすることが良いのだと,あらためて思いました.まあ,そのようにしてきたのですねどね.

PCのHDDのデータは大丈夫なのか.それについては,今日はあまり考えないようにしておきましょう.

編集履歴

2022/10/07 Mr.Harikiri
2022/10/12 追記:Data Scrubbing
2022/10/15 追記:まとめ,文言整備