Я использую аппаратный RAID50 с контроллером PERC810 на своем сервере и недавно столкнулся с метрикой, в которой не уверен.До сих пор я использовал метрику smartctl «Элементы в расширенном списке дефектов» в качестве подсказки о том, что диск выходит из строя и должен быть удален, но если я использую perccli (или storcli/megacli), диск также показывает метрику под названием «Медиа». количество ошибок».
Проблема, с которой я столкнулся, заключается в том, что, судя по тому, что я читал об этих показателях, они в основном одно и то же - оба показывают перераспределенные сектора или физические дефекты на диске.
Но некоторые из моих жестких дисков показывают число больше нуля в элементах в списке выращенных дефектов, но нулевое значение в счетчике ошибок носителя и наоборот.
Например этот диск:
perccli /c0/e37/s7 показать все
Версия командной строки = 007.1327.0000.0000 27 июля 2020 г.
Операционная система = Linux 4.19.0-0.bpo.9-amd64
Контроллер = 0
Статус = Успех
Описание = Показать информацию о диске удалось.
Диск /c0/e37/s7 :
================
--------------------------------------------- --------------------------
EID:Slt DID Состояние DG Размер Intf Med SED PI SeSz Модель Sp Тип
--------------------------------------------- --------------------------
37:7 72 Onln 1 Жесткий диск SAS 3,637 ТБ Нет Нет 512B WD4001FYYG-01SL3 U -
--------------------------------------------- --------------------------
EID=ID устройства корпуса|Slt=№ слота|DID=ID устройства|DG=DriveGroup
DHS=выделенный горячий резерв|UGood=ненастроенный хороший|GHS=глобальный горячий резерв
UBad=Unconfigured Bad|Sntze=Sanitize|Onln=Online|Offln=Offline|Intf=Interface
Med=Тип носителя|SED=Диск с самошифрованием|PI=Информация о защите
SeSz=Размер сектора|Sp=Spun|U=Вверх|D=Вниз|T=Переход|F=Внешний
UGUnsp=UGood Unsupported|UGShld=UGood экранированный|HSPShld=горячий резерв экранированный
CFShld=Настроенное экранирование|Cpybck=CopyBack|CBShld=Защищенное копирование
UBUnsp=UBad не поддерживается|Rbld=перестроить
Диск /c0/e37/s7 - Подробная информация:
========================================
Состояние диска /c0/e37/s7:
======================
Счетчик щитов = 0
Количество ошибок носителя = 38
Количество других ошибок = 118063
Температура диска = 41C (105,80 F)
Прогнозируемый счетчик отказов = 0
Предупреждение S.M.A.R.T, отмеченное диском = Нет
Диск /c0/e37/s7 Атрибуты устройства:
===================================
Серийный номер = WMC1F0D41KD5
Идентификатор производителя = WD
Номер модели = WD4001FYYG-01SL3
Производитель NAND = нет данных
WWN = 50000C0F01F55DD1
Версия прошивки = VR08
Номер версии прошивки = Н/Д
Необработанный размер = 3,638 ТБ [0x1d1c0beb0 секторов]
Принудительный размер = 3,637 ТБ [0x1d1b00000 секторов]
Не принудительный размер = 3,637 ТБ [0x1d1b0beb0 секторов]
Скорость устройства = 6,0 Гбит/с
Скорость соединения = 6,0 Гбит/с
Кэш записи = Н/Д
Размер логического сектора = 512 байт
Размер физического сектора = 512 байт
Имя соединителя = 01
Что показывает Количество ошибок носителя = 3
, но когда я использую smartctl для того же диска:
smartctl -a -d мегарейд,72 /dev/sdg
smartctl 7.2 30.12.2020 r5155 [x86_64-linux-4.19.0-0.bpo.9-amd64] (локальная сборка)
Copyright (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Производитель: ВД
Продукт: WD4001FYYG-01SL3
Редакция: VR08
Соответствие: SPC-4
Емкость пользователя: 4 000 787 030 016 байт [4,00 ТБ]
Размер логического блока: 512 байт
Скорость вращения: 7200 об/мин
Форм-фактор: 3,5 дюйма
Идентификатор логической единицы: 0x50000c0f01f55dd0
Серийный номер: WMC1F0D41KD5
Тип устройства: диск
Транспортный протокол: SAS (SPL-3)
Местное время: пятница, 28 января, 14:14:51 2022 CET.
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена
Предупреждение о температуре: включено
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Состояние здоровья SMART: ОК
Текущая температура диска: 41 C
Температура поездки: 40 C
Накопленная мощность во времени, часы:минуты 60298:10
Изготовлено на 46 неделе 2014 года.
Указанное количество циклов за время жизни устройства: 1048576
Накопленные циклы старт-стоп: 18
Указанное количество загрузок-выгрузок за время жизни устройства: 1114112
Накопленные циклы нагрузки-разгрузки: 118
Элементов в списке выросших дефектов: 0
Журнал счетчика ошибок:
Ошибки, исправленные Всего исправлений Всего гигабайт
ECC пересчитывает/алгоритм ошибок обрабатывается без исправления
быстро | отложенные перезаписи исправлены ошибки вызовов [10^9 байт]
читать: 2538437 9298 76289 2547735 9392 215124,761 94
напишите: 5550372 5405661 5407707 10956033 5405661 571404.363 0
проверить: 184 0 0 184 0 352,277 0
Количество несредних ошибок: 202249
Журнал самопроверки SMART
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Описание количество (часы)
#1 Предыстория длинная Завершено - 11 - [- - -]
Длинная (расширенная) продолжительность самопроверки: 31120 секунд [518,7 минут]
Это показывает Элементов в списке выросших дефектов: 0
Вот еще один пример на том же сервере, только с другим жестким диском:
perccli /c0/e37/s4 показать все
Версия командной строки = 007.1327.0000.0000 27 июля 2020 г.
Операционная система = Linux 4.19.0-0.bpo.9-amd64
Контроллер = 0
Статус = Успех
Описание = Показать информацию о диске удалось.
Диск /c0/e37/s4 :
================
--------------------------------------------- --------------------------
EID:Slt DID Состояние DG Размер Intf Med SED PI SeSz Модель Sp Тип
--------------------------------------------- --------------------------
37:4 63 Onln 1 Жесткий диск SAS 3,637 ТБ Нет Нет 512B WD4001FYYG-01SL3 U -
--------------------------------------------- --------------------------
EID=ID устройства корпуса|Slt=№ слота|DID=ID устройства|DG=DriveGroup
DHS=выделенный горячий резерв|UGood=ненастроенный хороший|GHS=глобальный горячий резерв
UBad=Unconfigured Bad|Sntze=Sanitize|Onln=Online|Offln=Offline|Intf=Interface
Med=Тип носителя|SED=Диск с самошифрованием|PI=Информация о защите
SeSz=Размер сектора|Sp=Spun|U=Вверх|D=Вниз|T=Переход|F=Внешний
UGUnsp=UGood Unsupported|UGShld=UGood экранированный|HSPShld=горячий резерв экранированный
CFShld=Настроенное экранирование|Cpybck=CopyBack|CBShld=Защищенное копирование
UBUnsp=UBad не поддерживается|Rbld=перестроить
Диск /c0/e37/s4 - Подробная информация:
========================================
Состояние диска /c0/e37/s4:
======================
Счетчик щитов = 0
Счетчик ошибок носителя = 0
Количество других ошибок = 118060
Температура привода = 35°C (95,00 F)
Прогнозируемый счетчик отказов = 0
Предупреждение S.M.A.R.T, отмеченное диском = Нет
Диск /c0/e37/s4 Атрибуты устройства:
===================================
Серийный номер = WMC1F0D222KF
Идентификатор производителя = WD
Номер модели = WD4001FYYG-01SL3
Производитель NAND = нет данных
WWN = 50000C0F01352C35
Версия прошивки = VR08
Номер версии прошивки = Н/Д
Необработанный размер = 3,638 ТБ [0x1d1c0beb0 секторов]
Принудительный размер = 3,637 ТБ [0x1d1b00000 секторов]
Не принудительный размер = 3,637 ТБ [0x1d1b0beb0 секторов]
Скорость устройства = 6,0 Гбит/с
Скорость соединения = 6,0 Гбит/с
Кэш записи = Н/Д
Размер логического сектора = 512 байт
Размер физического сектора = 512 байт
Имя соединителя = 01
Диск /c0/e37/s4 Политики/Настройки:
===================================
Положение привода = DriveGroup:1, Span:1, Row:0
Положение корпуса = 0
Номер подключенного порта = 0 (path0)
Порядковый номер = 2
Введенная в эксплуатацию запасная часть = Нет
Аварийный запас = Нет
Порядковый номер последнего прогнозируемого отказа = 0
Успешное завершение диагностики = N/A
Тип FDE = Нет
Поддержка SED = Нет
SED включен = нет
Защищено = Нет
Возможность криптографического стирания = Нет
Санитарная поддержка = не поддерживается
Заблокировано = Нет
Требует внимания EKM = Нет
Соответствует требованиям PI = Нет
Сертифицировано = Нет
Поддержка широкого порта = Нет
Информация о порте:
================
-----------------------------------------
Порт Статус LinkSpeed Адрес SAS
-----------------------------------------
0 Активный 6,0 Гбит/с 0x50000c0f01352c36
1 Активный Неизвестный 0x0
-----------------------------------------
Данные запроса =
00 00 06 12 5б 01 10 02 57 44 20 20 20 20 20 20
57 44 34 30 30 31 46 59 59 47 2д 30 31 53 4в 33
56 52 30 38 57 44 2д 57 4д 43 31 46 30 44 32 32
32 4б 46 20 20 20 20 20 00 00 00 а0 0в 40 20 в0
04 60 04 с0 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
Где Счетчик ошибок носителя = 0
, но смартктл:
smartctl -a -d мегарейд,63 /dev/sdg
smartctl 7.2 30.12.2020 r5155 [x86_64-linux-4.19.0-0.bpo.9-amd64] (локальная сборка)
Copyright (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Производитель: ВД
Продукт: WD4001FYYG-01SL3
Редакция: VR08
Соответствие: SPC-4
Емкость пользователя: 4 000 787 030 016 байт [4,00 ТБ]
Размер логического блока: 512 байт
Скорость вращения: 7200 об/мин
Форм-фактор: 3,5 дюйма
Идентификатор логической единицы: 0x50000c0f01352c34
Серийный номер: WMC1F0D222KF
Тип устройства: диск
Транспортный протокол: SAS (SPL-3)
Местное время: пятница, 28 января, 14:39:52 2022 CET.
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена
Предупреждение о температуре: включено
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Состояние здоровья SMART: ОК
Текущая температура диска: 35 C
Температура поездки: 40 C
Накопленная мощность во времени, часы:минуты 60299:24
Изготовлено на 46 неделе 2014 года.
Указанное количество циклов за время жизни устройства: 1048576
Накопленные циклы старт-стоп: 18
Указанное количество загрузок-выгрузок за время жизни устройства: 1114112
Накопленные циклы нагрузки-разгрузки: 118
Элементов в списке выросших дефектов: 44
Журнал счетчика ошибок:
Ошибки, исправленные Всего исправлений Всего гигабайт
ECC пересчитывает/алгоритм ошибок обрабатывается без исправления
быстро | отложенные перезаписи исправлены ошибки вызовов [10^9 байт]
читать: 4899063 1 1 4899064 1 215489,217 0
пишите: 6593514 494 496 6594008 499 571584.348 0
проверить: 345 0 0 345 0 349,197 0
Количество несредних ошибок: 202287
Журнал самопроверки SMART
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Описание количество (часы)
#1 Предыстория длинная Завершено - 11 - [- - -]
Длинная (расширенная) продолжительность самопроверки: 31120 секунд [518,7 минут]
Шоу Элементов в списке выросших дефектов: 44
Не могли бы вы объяснить разницу между этими двумя показателями и какой из них следует использовать при определении неисправного диска?
Спасибо.