(参考サイト)
1.接続されているディスクの確認
まずは、認識されているディスクを確認する。 lsblk というコマンドを使うと確認できるようだ。
まずは初号機。インストール時にうまくHDDを認識できてなかったので、SSDだけフォーマットして、そこにインストールしたが、現状HDDも認識されている。(sda、sdc、sdd、sdeがHDD)
$ lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT fd0 2:0 1 4K 0 disk sda 8:0 0 298.1G 0 disk mqsda1 8:1 0 298.1G 0 part sdb 8:16 0 119.2G 0 disk tqsdb1 8:17 0 1G 0 part /boot mqsdb2 8:18 0 118.2G 0 part tqcentos-root 253:0 0 50G 0 lvm / tqcentos-swap 253:1 0 3.9G 0 lvm [SWAP] mqcentos-home 253:2 0 64.4G 0 lvm /home sdc 8:32 0 931.5G 0 disk mqsdc1 8:33 0 931.5G 0 part sdd 8:48 0 931.5G 0 disk mqsdd1 8:49 0 931.5G 0 part sde 8:64 0 931.5G 0 disk mqsde1 8:65 0 931.5G 0 part sr0 11:0 1 1024M 0 rom
次は弐号機。こっちはインストール時から問題なくSSDもHDDも認識されていたので、 lvm で一つにまとめている。
$ lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sda 8:0 0 232.9G 0 disk mqsda1 8:1 0 232.9G 0 part tqcentos-root 253:0 0 50G 0 lvm / tqcentos-swap 253:1 0 7.8G 0 lvm [SWAP] mqcentos-home 253:2 0 1.1T 0 lvm /home sdb 8:16 0 931.5G 0 disk tqsdb1 8:17 0 1G 0 part /boot mqsdb2 8:18 0 930.5G 0 part mqcentos-home 253:2 0 1.1T 0 lvm /home sr0 11:0 1 1024M 0 rom
2.S.M.A.R.T.でディスクの状態チェック
弐号機はともかく、初号機は相当古いので、ディスクの状態もチェックしておく。minimalでは関連ツールが入っていないので、インストールするところから。
Self-Monitoring, Analysis and Reporting Technology (セルフモニタリング・アナリシス・アンド・リポーティング・テクノロジー、略称: S.M.A.R.T.; スマート) は、ハードディスクドライブと、ソリッドステートドライブの障害の早期発見・故障の予測を目的としてディスクドライブに搭載されている機能である。この機能は、各種の検査項目をリアルタイムに自己診断し、その状態を数値化する。ユーザーはその数値を各種のツール(後述)を用いることで知ることが出来る。全ての故障を予期することは出来ないが、安定した利用環境における経年劣化による故障を知るには非常に有効である。
— https://ja.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology より引用
$ sudo yum install -y smartmontools $ sudo smartctl --scan # lsblk で 一覧を取得していればしなくても大丈夫か。 $ sudo smartctl -i /dev/sdX # ディスクごとにデバイス情報を表示 smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.10.1.el7.x86_64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Barracuda 7200.11 Device Model: ST3320613AS Serial Number: 6SZ14EAP LU WWN Device Id: 5 000c50 00e32e1e2 Firmware Version: SD22 User Capacity: 320,071,851,520 bytes [320 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 7200 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Fri Apr 5 11:26:25 2019 JST ==> WARNING: There are known problems with these drives, see the following Seagate web pages: http://knowledge.seagate.com/articles/en_US/FAQ/207931en http://knowledge.seagate.com/articles/en_US/FAQ/207951en http://knowledge.seagate.com/articles/en_US/FAQ/207957en SMART support is: Available - device has SMART capability. SMART support is: Enabled # ここにEnabled と表示されていれば、S.M.A.R.T.に対応している。 $ sudo smartctl -A /dev/sdX # S.M.A.R.T.情報を全て表示。 === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 174 169 021 Pre-fail Always - 2291 (以下略) $ sudo smartctl -t (mode) /dev/sdX # modeはshort,long,conveyance から選べる。shortは数分で終わる簡易検査。longは数時間かかる。conveyance は輸送中に障害が起きやすいセクタを調査するらしい。 # 処理はバックグラウンドで処理され、終了予定時刻、予想所要時間が表示される。 $ sudo smartctl -a /dev/sdX # smartctl -t の終了予定時刻を過ぎてから実行すると、テスト結果が表示される。
この際なので、時間かかってもいいからlongでチェックを掛けてみる。こういうのはいろいろ環境作って、止まったら困る状況になる前にやっとかないと。ということで。
ちなみに、各ディスクの予定所要時間は以下の通り。
- 初号機 sda:65分 (320GB HDD)
- 初号機 sdb:9分 (128G SSD)
- 初号機 sdc:168分 (1TB HDD)
- 初号機 sdd:105分 (1TB HDD)
- 初号機 sde:151分 (1TB HDD)
- 弐号機 sda:10分 (256GB SSD)
- 弐号機 sdb:124分 (1TB HDD)
一通り、チェックを掛けてみたが、レポートの中で特に重要なのは、このあたりの情報のようだ、
- 1 Raw_Read_Error_Rate この項目はハードディスクからデータを読み込む時に発生したエラーの割合を表す。現在値が閾値より低い場合、ハードディスク内の磁気ディスクまたは磁気ヘッドに異常がある。
- 7 Seek Error Rate 磁気ヘッドが目的のデータの在るトラックへ移動しようとして失敗(シークエラー)した割合。ハードディスクの熱、サーボ機構の損傷などによって発生する。数値が低い場合、ハードディスクの表面やハードディスクの機械的なシステムに問題がある可能性がある。
- 196 Reallocated_Event_Count セクタの代替処理が発生した回数。仮に処理に失敗しても回数に加算される。
- 197 Current_Pending_Sector 現在異常があり、代替処理を待つセクタの総数。もし後で読み込みに成功したセクタがあれば、この値は減少する。
- 198 Offline_Uncorrectable オフラインスキャン時に発見された、回復不可能なセクタの総数。この値が増加する場合は、磁気ディスクの表面に明確な問題がある。
ということで、下記の表にまとめてみた。
見る限り、古いディスクにはそれなりに読み込みエラーやシークエラーが起きているようだ。また、初号機のsdcには、値は小さいながらも、セクタ不良を示す値もでている。
項目 | 現在値 (正規化) |
ワースト値 | しきい値 | 現在値 (元データ) |
||
初号機 | sda | Raw_Read_Error_Rate | 119 | 99 | 6 | 218874990 |
Seek_Error_Rate | 83 | 60 | 30 | 230388225 | ||
Reallocated_Event_Count | データなし | |||||
Current_Pending_Sector | 100 | 100 | 0 | 0 | ||
Offline_Uncorrectable | 100 | 100 | 0 | 0 | ||
sdb | Raw_Read_Error_Rate | 100 | 100 | 50 | 0 | |
Seek_Error_Rate | SSDなので対象外 | |||||
Reallocated_Event_Count | 100 | 100 | 1 | 0 | ||
Current_Pending_Sector | 100 | 100 | 1 | 0 | ||
Offline_Uncorrectable | 100 | 100 | 1 | 0 | ||
sdc | Raw_Read_Error_Rate | 100 | 100 | 16 | 0 | |
Seek_Error_Rate | 100 | 100 | 67 | 0 | ||
Reallocated_Event_Count | 100 | 100 | 0 | 12 | ||
Current_Pending_Sector | 100 | 100 | 0 | 0 | ||
Offline_Uncorrectable | 100 | 100 | 0 | 0 | ||
sdd | Raw_Read_Error_Rate | 118 | 99 | 6 | 177670952 | |
Seek_Error_Rate | 75 | 60 | 30 | 40627545 | ||
Reallocated_Event_Count | データなし | |||||
Current_Pending_Sector | 100 | 100 | 0 | 0 | ||
Offline_Uncorrectable | 100 | 100 | 0 | 0 | ||
sde | Raw_Read_Error_Rate | 200 | 200 | 51 | 0 | |
Seek_Error_Rate | 200 | 200 | 0 | 0 | ||
Reallocated_Event_Count | 200 | 200 | 0 | 0 | ||
Current_Pending_Sector | 200 | 200 | 0 | 0 | ||
Offline_Uncorrectable | 200 | 200 | 0 | 0 | ||
弐号機 | sda | Raw_Read_Error_Rate | 100 | 100 | 0 | 0 |
Seek_Error_Rate | SSDなので対象外 | |||||
Reallocated_Event_Count | 100 | 100 | 16 | 0 | ||
Current_Pending_Sector | 100 | 100 | 0 | 0 | ||
Offline_Uncorrectable | 100 | 100 | 0 | 0 | ||
sdb | Raw_Read_Error_Rate | 200 | 200 | 51 | 0 | |
Seek_Error_Rate | 200 | 200 | 0 | 0 | ||
Reallocated_Event_Count | 200 | 200 | 0 | 0 | ||
Current_Pending_Sector | 200 | 200 | 0 | 0 | ||
Offline_Uncorrectable | 200 | 200 | 0 | 0 |