Рейтинг:0

Как следить за здоровьем Segate HDD под Linux?

флаг cn

Мне нужно будет следить за состоянием нескольких жестких дисков Seagate ST16000NM002G SAS, размещенных на дисковом сервере под управлением CentOS 7. Насколько я понимаю, диски Seagate не предоставляют S.M.A.R.T. атрибуты благодаря точному управленческому решению (см. эта страница), и компания предлагает использовать их программное обеспечение SeaTool, которое, по их мнению, более надежно, чем S.M.A.R.T. К сожалению, для Linux доступна только SSD-версия SeaTool (см. эта страница).

Поскольку я бы сказал, что Segate + Linux должен быть довольно распространенным случаем в современных центрах обработки данных, я почти уверен, что для Linux должен быть доступен какой-то надежный инструмент мониторинга дисков Seagate. Может ли кто-нибудь дать некоторое представление, пожалуйста?

Редактировать: это то, что я получаю с помощью smartctl для дисков Seagate:

$ sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (локальная сборка)
Copyright (C) 2002-18, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Текущая температура диска: 33 C
Температура поездки: 60 C

Изготовлено на 42 неделе 2020 года.
Указанное количество циклов в течение срока службы устройства: 50000
Накопленные циклы старт-стоп: 20
Указанное количество загрузок-выгрузок за время жизни устройства: 600000
Накопленные циклы загрузки-разгрузки: 3324
Элементов в списке выросших дефектов: 0

а для жесткого диска Toshiba на другой машине:

$ sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 16
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000b 100 100 050 До отказа Всегда - 0
  2 Throughput_Performance 0x0005 100 100 050 До сбоя Автономный режим — 0
  3 Spin_Up_Time 0x0027 100 100 001 Предотказ Всегда — 7019
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Всегда - 34
  5 Reallocated_Sector_Ct 0x0033 100 100 050 До отказа Всегда - 0
  7 Seek_Error_Rate 0x000b 100 100 050 Предотказ Всегда - 0
  8 Seek_Time_Performance 0x0005 100 100 050 До сбоя Автономный режим — 0
  9 Power_On_Hours 0x0032 062 062 000 Old_age Всегда - 15428
 10 Spin_Retry_Count 0x0033 100 100 030 Предотказ Всегда - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Всегда - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Всегда - 32
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 39
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 31 (мин./макс. 15/39)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Всегда - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Всегда - 0
222 Loaded_Hours 0x0032 062 062 000 Old_age Всегда - 15427
223 Load_Retry_Count 0x0032 100 100 000 Old_age Всегда - 0
224 Load_Friction 0x0022 100 100 000 Old_age Всегда - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Всегда - 648
240 Head_Flying_Hours 0x0001 100 100 001 До сбоя Не в сети - 0

Я бы ожидал чего-то вроде последнего, чтобы иметь возможность настроить надлежащий (пусть даже не точный или надежный) мониторинг.

Рейтинг:0
флаг br

В этой статье говорится, что они обычно отображают атрибуты SMART, но по сомнительным причинам только SeaTool знает, как их интерпретировать, кроме как «годен/не годен».

В некоторой степени это верно для атрибутов SMART любого диска, поскольку машиночитаемым является только вычисленное значение, а интерпретация «сырого» значения несколько неопределенна. Температура по Цельсию очевидно, но время интегрирования для различных атрибутов «коэффициента ошибок» зависит от поставщика, как и пороговые значения. SeaTools знает, как интерпретировать необработанные значения, вот и все.

Я сомневаюсь, что они продали бы много жестких дисков, если бы поддержка SMART отсутствовала или была неточной, подавляющее большинство серверных дисков входят в массивы RAID, где SMART является единственным доступным стандартом мониторинга.

Они могут установить свое собственное программное обеспечение для анализа поверх RAID-контроллера, но если оно не интегрируется с минимальными усилиями в существующие решения для мониторинга, предоставляющие панель управления для всего центра обработки данных, это будет нишевое решение для рынка любителей. .

Это один из примеров класса проблем, которые я называю проблемами «на вершине пищевой цепи», когда несколько программных компонентов написаны как основной пользовательский интерфейс, в то время как пользователь требует, чтобы они были интегрированы в более крупную систему.

флаг cn
Я понимаю, но smartctl -A не сообщает об атрибутах, специфичных для поставщика, с наихудшими и пороговыми значениями; он просто сообщает текущую температуру и температуру срабатывания, а также некоторые цифры, такие как накопленные циклы пуска-остановки и накопленные циклы нагрузки-разгрузки без какого-либо эталонного диапазона. Так как же S.M.A.R.T. сделать вывод (даже не точный) о состоянии диска? Другими словами, я боюсь, что установка автоматизированной системы проверки работоспособности на основе S.M.A.R.T. может быть бесполезным, так как диски не предоставляют достаточно информации.
флаг br
@NicolaMori, SMART выражает эталонный диапазон путем нормализации значений, поэтому для независимого от поставщика мониторинга все, что вам нужно, это проверить, превышают ли текущие и наихудшие значения пороговое значение, и движутся ли они к нему и как быстро.
флаг br
FWIW, я действительно не беспокоюсь о большей части этого мониторинга, кроме рисования красивых графиков. У меня есть несколько дисков, которые были удалены из моего RAID из-за того, что они не могут хранить данные, но в SMART они выглядят абсолютно нормально.Все, что вы получаете от SMART, — это иногда предварительное предупреждение.
флаг cn
Проблема в том, что с помощью smartctl -A я не получаю никакого значения, только температуру, поэтому нечего отслеживать. Смотрите редактирование в моем исходном посте. Диск S.M.A.R.T. поддержка рекламируется как доступная и включенная.
флаг br
@NicolaMori, я исследовал это немного больше - дамп атрибута `-A` специфичен для ATA/SATA и не будет работать для дисков SAS. Расширенный дамп `-x` должен показать немного больше информации, но там он работает немного по-другому. На справочной странице `smartctl` есть несколько комментариев, где говорится `[ATA]` или `[SCSI]`, чтобы подчеркнуть различия.
флаг cn
Спасибо большое за помощь. Я пробовал с `-x`, а также с `-d scsi`, но в конце концов в разделе SMART DATA больше не печатается информация. Я предполагаю, что Smart просто ведет себя по-другому для дисков SAS, и что единственными доступными показателями являются циклы запуска-остановки, циклы загрузки-выгрузки и элементы в списке дефектов, как сообщалось в моем первоначальном посте. Думаю, я просто посмотрю на синтетическое состояние здоровья (smartctl -H), кажется, результат не стоит усилий. Еще раз спасибо!

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.