Мне нужно будет следить за состоянием нескольких жестких дисков Seagate ST16000NM002G SAS, размещенных на дисковом сервере под управлением CentOS 7. Насколько я понимаю, диски Seagate не предоставляют S.M.A.R.T. атрибуты благодаря точному управленческому решению (см. эта страница), и компания предлагает использовать их программное обеспечение SeaTool, которое, по их мнению, более надежно, чем S.M.A.R.T. К сожалению, для Linux доступна только SSD-версия SeaTool (см. эта страница).
Поскольку я бы сказал, что Segate + Linux должен быть довольно распространенным случаем в современных центрах обработки данных, я почти уверен, что для Linux должен быть доступен какой-то надежный инструмент мониторинга дисков Seagate. Может ли кто-нибудь дать некоторое представление, пожалуйста?
Редактировать: это то, что я получаю с помощью smartctl для дисков Seagate:
$ sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (локальная сборка)
Copyright (C) 2002-18, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Текущая температура диска: 33 C
Температура поездки: 60 C
Изготовлено на 42 неделе 2020 года.
Указанное количество циклов в течение срока службы устройства: 50000
Накопленные циклы старт-стоп: 20
Указанное количество загрузок-выгрузок за время жизни устройства: 600000
Накопленные циклы загрузки-разгрузки: 3324
Элементов в списке выросших дефектов: 0
а для жесткого диска Toshiba на другой машине:
$ sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 16
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 050 До отказа Всегда - 0
2 Throughput_Performance 0x0005 100 100 050 До сбоя Автономный режим — 0
3 Spin_Up_Time 0x0027 100 100 001 Предотказ Всегда — 7019
4 Start_Stop_Count 0x0032 100 100 000 Old_age Всегда - 34
5 Reallocated_Sector_Ct 0x0033 100 100 050 До отказа Всегда - 0
7 Seek_Error_Rate 0x000b 100 100 050 Предотказ Всегда - 0
8 Seek_Time_Performance 0x0005 100 100 050 До сбоя Автономный режим — 0
9 Power_On_Hours 0x0032 062 062 000 Old_age Всегда - 15428
10 Spin_Retry_Count 0x0033 100 100 030 Предотказ Всегда - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Всегда - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Всегда - 32
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 39
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 31 (мин./макс. 15/39)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Всегда - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Всегда - 0
222 Loaded_Hours 0x0032 062 062 000 Old_age Всегда - 15427
223 Load_Retry_Count 0x0032 100 100 000 Old_age Всегда - 0
224 Load_Friction 0x0022 100 100 000 Old_age Всегда - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Всегда - 648
240 Head_Flying_Hours 0x0001 100 100 001 До сбоя Не в сети - 0
Я бы ожидал чего-то вроде последнего, чтобы иметь возможность настроить надлежащий (пусть даже не точный или надежный) мониторинг.