初号機＆弐号機環境構築その３ HDD周り

（参考サイト）

https://qiita.com/aosho235/items/ad9a4764e77ba43c9d76

１．接続されているディスクの確認

まずは、認識されているディスクを確認する。 lsblk というコマンドを使うと確認できるようだ。

まずは初号機。インストール時にうまくHDDを認識できてなかったので、SSDだけフォーマットして、そこにインストールしたが、現状HDDも認識されている。（sda、sdc、sdd、sdeがHDD）

$ lsblk
NAME            MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
fd0               2:0    1     4K  0 disk
sda               8:0    0 298.1G  0 disk
mqsda1            8:1    0 298.1G  0 part
sdb               8:16   0 119.2G  0 disk
tqsdb1            8:17   0     1G  0 part /boot
mqsdb2            8:18   0 118.2G  0 part
  tqcentos-root 253:0    0    50G  0 lvm  /
  tqcentos-swap 253:1    0   3.9G  0 lvm  [SWAP]
  mqcentos-home 253:2    0  64.4G  0 lvm  /home
sdc               8:32   0 931.5G  0 disk
mqsdc1            8:33   0 931.5G  0 part
sdd               8:48   0 931.5G  0 disk
mqsdd1            8:49   0 931.5G  0 part
sde               8:64   0 931.5G  0 disk
mqsde1            8:65   0 931.5G  0 part
sr0              11:0    1  1024M  0 rom

次は弐号機。こっちはインストール時から問題なくSSDもHDDも認識されていたので、 lvm で一つにまとめている。

$ lsblk
NAME            MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda               8:0    0 232.9G  0 disk
mqsda1            8:1    0 232.9G  0 part
  tqcentos-root 253:0    0    50G  0 lvm  /
  tqcentos-swap 253:1    0   7.8G  0 lvm  [SWAP]
  mqcentos-home 253:2    0   1.1T  0 lvm  /home
sdb               8:16   0 931.5G  0 disk
tqsdb1            8:17   0     1G  0 part /boot
mqsdb2            8:18   0 930.5G  0 part
  mqcentos-home 253:2    0   1.1T  0 lvm  /home
sr0              11:0    1  1024M  0 rom

２．S.M.A.R.T.でディスクの状態チェック

弐号機はともかく、初号機は相当古いので、ディスクの状態もチェックしておく。minimalでは関連ツールが入っていないので、インストールするところから。

Self-Monitoring, Analysis and Reporting Technology (セルフモニタリング・アナリシス・アンド・リポーティング・テクノロジー、略称: S.M.A.R.T.; スマート) は、ハードディスクドライブと、ソリッドステートドライブの障害の早期発見・故障の予測を目的としてディスクドライブに搭載されている機能である。この機能は、各種の検査項目をリアルタイムに自己診断し、その状態を数値化する。ユーザーはその数値を各種のツール（後述）を用いることで知ることが出来る。全ての故障を予期することは出来ないが、安定した利用環境における経年劣化による故障を知るには非常に有効である。

— https://ja.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology より引用

$ sudo yum install -y smartmontools
$ sudo smartctl --scan  # lsblk で 一覧を取得していればしなくても大丈夫か。
$ sudo smartctl -i /dev/sdX  # ディスクごとにデバイス情報を表示
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.10.1.el7.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.11
Device Model:     ST3320613AS
Serial Number:    6SZ14EAP
LU WWN Device Id: 5 000c50 00e32e1e2
Firmware Version: SD22
User Capacity:    320,071,851,520 bytes [320 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Fri Apr  5 11:26:25 2019 JST

==> WARNING: There are known problems with these drives,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/207951en
http://knowledge.seagate.com/articles/en_US/FAQ/207957en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled    # ここにEnabled と表示されていれば、S.M.A.R.T.に対応している。

$ sudo smartctl -A /dev/sdX  # S.M.A.R.T.情報を全て表示。
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   174   169   021    Pre-fail  Always       -       2291
（以下略）

$ sudo smartctl -t (mode) /dev/sdX
  # modeはshort,long,conveyance から選べる。shortは数分で終わる簡易検査。longは数時間かかる。conveyance は輸送中に障害が起きやすいセクタを調査するらしい。
  # 処理はバックグラウンドで処理され、終了予定時刻、予想所要時間が表示される。
$ sudo smartctl -a /dev/sdX  # smartctl -t の終了予定時刻を過ぎてから実行すると、テスト結果が表示される。

この際なので、時間かかってもいいからlongでチェックを掛けてみる。こういうのはいろいろ環境作って、止まったら困る状況になる前にやっとかないと。ということで。

ちなみに、各ディスクの予定所要時間は以下の通り。

初号機 sda：65分　（320GB HDD）
初号機 sdb：9分　（128G SSD）
初号機 sdc：168分　（1TB HDD）
初号機 sdd：105分　（1TB HDD）
初号機 sde：151分　（1TB HDD）
弐号機 sda：10分　（256GB SSD）
弐号機 sdb：124分　（1TB HDD）

一通り、チェックを掛けてみたが、レポートの中で特に重要なのは、このあたりの情報のようだ、

1 Raw_Read_Error_Rate　この項目はハードディスクからデータを読み込む時に発生したエラーの割合を表す。現在値が閾値より低い場合、ハードディスク内の磁気ディスクまたは磁気ヘッドに異常がある。
7 Seek Error Rate　磁気ヘッドが目的のデータの在るトラックへ移動しようとして失敗（シークエラー）した割合。ハードディスクの熱、サーボ機構の損傷などによって発生する。数値が低い場合、ハードディスクの表面やハードディスクの機械的なシステムに問題がある可能性がある。
196 Reallocated_Event_Count　セクタの代替処理が発生した回数。仮に処理に失敗しても回数に加算される。
197 Current_Pending_Sector 現在異常があり、代替処理を待つセクタの総数。もし後で読み込みに成功したセクタがあれば、この値は減少する。
198 Offline_Uncorrectable オフラインスキャン時に発見された、回復不可能なセクタの総数。この値が増加する場合は、磁気ディスクの表面に明確な問題がある。

ということで、下記の表にまとめてみた。

見る限り、古いディスクにはそれなりに読み込みエラーやシークエラーが起きているようだ。また、初号機のsdcには、値は小さいながらも、セクタ不良を示す値もでている。

		項目	現在値（正規化）	ワースト値	しきい値	現在値（元データ）
初号機	sda	Raw_Read_Error_Rate	119	99	6	218874990
		Seek_Error_Rate	83	60	30	230388225
		Reallocated_Event_Count	データなし
		Current_Pending_Sector	100	100	0	0
		Offline_Uncorrectable	100	100	0	0
	sdb	Raw_Read_Error_Rate	100	100	50	0
		Seek_Error_Rate	SSDなので対象外
		Reallocated_Event_Count	100	100	1	0
		Current_Pending_Sector	100	100	1	0
		Offline_Uncorrectable	100	100	1	0
	sdc	Raw_Read_Error_Rate	100	100	16	0
		Seek_Error_Rate	100	100	67	0
		Reallocated_Event_Count	100	100	0	12
		Current_Pending_Sector	100	100	0	0
		Offline_Uncorrectable	100	100	0	0
	sdd	Raw_Read_Error_Rate	118	99	6	177670952
		Seek_Error_Rate	75	60	30	40627545
		Reallocated_Event_Count	データなし
		Current_Pending_Sector	100	100	0	0
		Offline_Uncorrectable	100	100	0	0
	sde	Raw_Read_Error_Rate	200	200	51	0
		Seek_Error_Rate	200	200	0	0
		Reallocated_Event_Count	200	200	0	0
		Current_Pending_Sector	200	200	0	0
		Offline_Uncorrectable	200	200	0	0
弐号機	sda	Raw_Read_Error_Rate	100	100	0	0
		Seek_Error_Rate	SSDなので対象外
		Reallocated_Event_Count	100	100	16	0
		Current_Pending_Sector	100	100	0	0
		Offline_Uncorrectable	100	100	0	0
	sdb	Raw_Read_Error_Rate	200	200	51	0
		Seek_Error_Rate	200	200	0	0
		Reallocated_Event_Count	200	200	0	0
		Current_Pending_Sector	200	200	0	0
		Offline_Uncorrectable	200	200	0	0