Рейтинг:0

smartctl «Элементы в увеличенном списке дефектов» и RAID-контроллер «Количество ошибок носителя»

флаг fr

Я использую аппаратный RAID50 с контроллером PERC810 на своем сервере и недавно столкнулся с метрикой, в которой не уверен.До сих пор я использовал метрику smartctl «Элементы в расширенном списке дефектов» в качестве подсказки о том, что диск выходит из строя и должен быть удален, но если я использую perccli (или storcli/megacli), диск также показывает метрику под названием «Медиа». количество ошибок». Проблема, с которой я столкнулся, заключается в том, что, судя по тому, что я читал об этих показателях, они в основном одно и то же - оба показывают перераспределенные сектора или физические дефекты на диске. Но некоторые из моих жестких дисков показывают число больше нуля в элементах в списке выращенных дефектов, но нулевое значение в счетчике ошибок носителя и наоборот. Например этот диск:

perccli /c0/e37/s7 показать все
Версия командной строки = 007.1327.0000.0000 27 июля 2020 г.
Операционная система = Linux 4.19.0-0.bpo.9-amd64
Контроллер = 0
Статус = Успех
Описание = Показать информацию о диске удалось.


Диск /c0/e37/s7 :
================

--------------------------------------------- --------------------------
EID:Slt DID Состояние DG Размер Intf Med SED PI SeSz Модель Sp Тип 
--------------------------------------------- --------------------------
37:7 72 Onln 1 Жесткий диск SAS 3,637 ТБ Нет Нет 512B WD4001FYYG-01SL3 U -    
--------------------------------------------- --------------------------

EID=ID устройства корпуса|Slt=№ слота|DID=ID устройства|DG=DriveGroup
DHS=выделенный горячий резерв|UGood=ненастроенный хороший|GHS=глобальный горячий резерв
UBad=Unconfigured Bad|Sntze=Sanitize|Onln=Online|Offln=Offline|Intf=Interface
Med=Тип носителя|SED=Диск с самошифрованием|PI=Информация о защите
SeSz=Размер сектора|Sp=Spun|U=Вверх|D=Вниз|T=Переход|F=Внешний
UGUnsp=UGood Unsupported|UGShld=UGood экранированный|HSPShld=горячий резерв экранированный
CFShld=Настроенное экранирование|Cpybck=CopyBack|CBShld=Защищенное копирование
UBUnsp=UBad не поддерживается|Rbld=перестроить


Диск /c0/e37/s7 - Подробная информация:
========================================

Состояние диска /c0/e37/s7:
======================
Счетчик щитов = 0
Количество ошибок носителя = 38
Количество других ошибок = 118063
Температура диска = 41C (105,80 F)
Прогнозируемый счетчик отказов = 0
Предупреждение S.M.A.R.T, отмеченное диском = Нет


Диск /c0/e37/s7 Атрибуты устройства:
===================================
Серийный номер = WMC1F0D41KD5
Идентификатор производителя = WD      
Номер модели = WD4001FYYG-01SL3
Производитель NAND = нет данных
WWN = 50000C0F01F55DD1
Версия прошивки = VR08
Номер версии прошивки = Н/Д
Необработанный размер = 3,638 ТБ [0x1d1c0beb0 секторов]
Принудительный размер = 3,637 ТБ [0x1d1b00000 секторов]
Не принудительный размер = 3,637 ТБ [0x1d1b0beb0 секторов]
Скорость устройства = 6,0 Гбит/с
Скорость соединения = 6,0 Гбит/с
Кэш записи = Н/Д
Размер логического сектора = 512 байт
Размер физического сектора = 512 байт
Имя соединителя = 01

Что показывает Количество ошибок носителя = 3, но когда я использую smartctl для того же диска:

smartctl -a -d мегарейд,72 /dev/sdg
smartctl 7.2 30.12.2020 r5155 [x86_64-linux-4.19.0-0.bpo.9-amd64] (локальная сборка)
Copyright (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Производитель: ВД
Продукт: WD4001FYYG-01SL3
Редакция: VR08
Соответствие: SPC-4
Емкость пользователя: 4 000 787 030 016 байт [4,00 ТБ]
Размер логического блока: 512 байт
Скорость вращения: 7200 об/мин
Форм-фактор: 3,5 дюйма
Идентификатор логической единицы: 0x50000c0f01f55dd0
Серийный номер: WMC1F0D41KD5
Тип устройства: диск
Транспортный протокол: SAS (SPL-3)
Местное время: пятница, 28 января, 14:14:51 2022 CET.
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена
Предупреждение о температуре: включено

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Состояние здоровья SMART: ОК

Текущая температура диска: 41 C
Температура поездки: 40 C

Накопленная мощность во времени, часы:минуты 60298:10
Изготовлено на 46 неделе 2014 года.
Указанное количество циклов за время жизни устройства: 1048576
Накопленные циклы старт-стоп: 18
Указанное количество загрузок-выгрузок за время жизни устройства: 1114112
Накопленные циклы нагрузки-разгрузки: 118
Элементов в списке выросших дефектов: 0

Журнал счетчика ошибок:
           Ошибки, исправленные Всего исправлений Всего гигабайт
               ECC пересчитывает/алгоритм ошибок обрабатывается без исправления
           быстро | отложенные перезаписи исправлены ошибки вызовов [10^9 байт]
читать: 2538437 9298 76289 2547735 9392 215124,761 94
напишите: 5550372 5405661 5407707 10956033 5405661 571404.363 0
проверить: 184 0 0 184 0 352,277 0

Количество несредних ошибок: 202249

Журнал самопроверки SMART
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
     Описание количество (часы)
#1 Предыстория длинная Завершено - 11 - [- - -]

Длинная (расширенная) продолжительность самопроверки: 31120 секунд [518,7 минут]

Это показывает Элементов в списке выросших дефектов: 0

Вот еще один пример на том же сервере, только с другим жестким диском:

perccli /c0/e37/s4 показать все
Версия командной строки = 007.1327.0000.0000 27 июля 2020 г.
Операционная система = Linux 4.19.0-0.bpo.9-amd64
Контроллер = 0
Статус = Успех
Описание = Показать информацию о диске удалось.


Диск /c0/e37/s4 :
================

--------------------------------------------- --------------------------
EID:Slt DID Состояние DG Размер Intf Med SED PI SeSz Модель Sp Тип 
--------------------------------------------- --------------------------
37:4 63 Onln 1 Жесткий диск SAS 3,637 ТБ Нет Нет 512B WD4001FYYG-01SL3 U -    
--------------------------------------------- --------------------------

EID=ID устройства корпуса|Slt=№ слота|DID=ID устройства|DG=DriveGroup
DHS=выделенный горячий резерв|UGood=ненастроенный хороший|GHS=глобальный горячий резерв
UBad=Unconfigured Bad|Sntze=Sanitize|Onln=Online|Offln=Offline|Intf=Interface
Med=Тип носителя|SED=Диск с самошифрованием|PI=Информация о защите
SeSz=Размер сектора|Sp=Spun|U=Вверх|D=Вниз|T=Переход|F=Внешний
UGUnsp=UGood Unsupported|UGShld=UGood экранированный|HSPShld=горячий резерв экранированный
CFShld=Настроенное экранирование|Cpybck=CopyBack|CBShld=Защищенное копирование
UBUnsp=UBad не поддерживается|Rbld=перестроить


Диск /c0/e37/s4 - Подробная информация:
========================================

Состояние диска /c0/e37/s4:
======================
Счетчик щитов = 0
Счетчик ошибок носителя = 0
Количество других ошибок = 118060
Температура привода = 35°C (95,00 F)
Прогнозируемый счетчик отказов = 0
Предупреждение S.M.A.R.T, отмеченное диском = Нет


Диск /c0/e37/s4 Атрибуты устройства:
===================================
Серийный номер = WMC1F0D222KF
Идентификатор производителя = WD      
Номер модели = WD4001FYYG-01SL3
Производитель NAND = нет данных
WWN = 50000C0F01352C35
Версия прошивки = VR08
Номер версии прошивки = Н/Д
Необработанный размер = 3,638 ТБ [0x1d1c0beb0 секторов]
Принудительный размер = 3,637 ТБ [0x1d1b00000 секторов]
Не принудительный размер = 3,637 ТБ [0x1d1b0beb0 секторов]
Скорость устройства = 6,0 Гбит/с
Скорость соединения = 6,0 Гбит/с
Кэш записи = Н/Д
Размер логического сектора = 512 байт
Размер физического сектора = 512 байт
Имя соединителя = 01 


Диск /c0/e37/s4 Политики/Настройки:
===================================
Положение привода = DriveGroup:1, Span:1, Row:0
Положение корпуса = 0
Номер подключенного порта = 0 (path0) 
Порядковый номер = 2
Введенная в эксплуатацию запасная часть = Нет
Аварийный запас = Нет
Порядковый номер последнего прогнозируемого отказа = 0
Успешное завершение диагностики = N/A
Тип FDE = Нет
Поддержка SED = Нет
SED включен = нет
Защищено = Нет
Возможность криптографического стирания = Нет
Санитарная поддержка = не поддерживается
Заблокировано = Нет
Требует внимания EKM = Нет
Соответствует требованиям PI = Нет
Сертифицировано = Нет
Поддержка широкого порта = Нет

Информация о порте:
================

-----------------------------------------
Порт Статус LinkSpeed ​​Адрес SAS        
-----------------------------------------
   0 Активный 6,0 Гбит/с 0x50000c0f01352c36 
   1 Активный Неизвестный 0x0                
-----------------------------------------


Данные запроса = 
00 00 06 12 5б 01 10 02 57 44 20 20 20 20 20 20 
57 44 34 30 30 31 46 59 59 47 2д 30 31 53 4в 33 
56 52 30 38 57 44 2д 57 4д 43 31 46 30 44 32 32 
32 4б 46 20 20 20 20 20 00 00 00 а0 0в 40 20 в0 
04 60 04 с0 00 00 00 00 00 00 00 00 00 00 00 00 
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 

Где Счетчик ошибок носителя = 0, но смартктл:

smartctl -a -d мегарейд,63 /dev/sdg
smartctl 7.2 30.12.2020 r5155 [x86_64-linux-4.19.0-0.bpo.9-amd64] (локальная сборка)
Copyright (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Производитель: ВД
Продукт: WD4001FYYG-01SL3
Редакция: VR08
Соответствие: SPC-4
Емкость пользователя: 4 000 787 030 016 байт [4,00 ТБ]
Размер логического блока: 512 байт
Скорость вращения: 7200 об/мин
Форм-фактор: 3,5 дюйма
Идентификатор логической единицы: 0x50000c0f01352c34
Серийный номер: WMC1F0D222KF
Тип устройства: диск
Транспортный протокол: SAS (SPL-3)
Местное время: пятница, 28 января, 14:39:52 2022 CET.
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена
Предупреждение о температуре: включено

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Состояние здоровья SMART: ОК

Текущая температура диска: 35 C
Температура поездки: 40 C

Накопленная мощность во времени, часы:минуты 60299:24
Изготовлено на 46 неделе 2014 года.
Указанное количество циклов за время жизни устройства: 1048576
Накопленные циклы старт-стоп: 18
Указанное количество загрузок-выгрузок за время жизни устройства: 1114112
Накопленные циклы нагрузки-разгрузки: 118
Элементов в списке выросших дефектов: 44

Журнал счетчика ошибок:
           Ошибки, исправленные Всего исправлений Всего гигабайт
               ECC пересчитывает/алгоритм ошибок обрабатывается без исправления
           быстро | отложенные перезаписи исправлены ошибки вызовов [10^9 байт]
читать: 4899063 1 1 4899064 1 215489,217 0
пишите: 6593514 494 496 6594008 499 571584.348 0
проверить: 345 0 0 345 0 349,197 0

Количество несредних ошибок: 202287

Журнал самопроверки SMART
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
     Описание количество (часы)
#1 Предыстория длинная Завершено - 11 - [- - -]

Длинная (расширенная) продолжительность самопроверки: 31120 секунд [518,7 минут]

Шоу Элементов в списке выросших дефектов: 44

Не могли бы вы объяснить разницу между этими двумя показателями и какой из них следует использовать при определении неисправного диска? Спасибо.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.