Рейтинг:0

Server

Как следить за здоровьем Segate HDD под Linux?

Nicola Mori

04.06.2023, 08:23

Мне нужно будет следить за состоянием нескольких жестких дисков Seagate ST16000NM002G SAS, размещенных на дисковом сервере под управлением CentOS 7. Насколько я понимаю, диски Seagate не предоставляют S.M.A.R.T. атрибуты благодаря точному управленческому решению (см. эта страница), и компания предлагает использовать их программное обеспечение SeaTool, которое, по их мнению, более надежно, чем S.M.A.R.T. К сожалению, для Linux доступна только SSD-версия SeaTool (см. эта страница).

Поскольку я бы сказал, что Segate + Linux должен быть довольно распространенным случаем в современных центрах обработки данных, я почти уверен, что для Linux должен быть доступен какой-то надежный инструмент мониторинга дисков Seagate. Может ли кто-нибудь дать некоторое представление, пожалуйста?

Редактировать: это то, что я получаю с помощью smartctl для дисков Seagate:

$ sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (локальная сборка)
Copyright (C) 2002-18, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Текущая температура диска: 33 C
Температура поездки: 60 C

Изготовлено на 42 неделе 2020 года.
Указанное количество циклов в течение срока службы устройства: 50000
Накопленные циклы старт-стоп: 20
Указанное количество загрузок-выгрузок за время жизни устройства: 600000
Накопленные циклы загрузки-разгрузки: 3324
Элементов в списке выросших дефектов: 0

а для жесткого диска Toshiba на другой машине:

$ sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 16
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000b 100 100 050 До отказа Всегда - 0
  2 Throughput_Performance 0x0005 100 100 050 До сбоя Автономный режим — 0
  3 Spin_Up_Time 0x0027 100 100 001 Предотказ Всегда — 7019
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Всегда - 34
  5 Reallocated_Sector_Ct 0x0033 100 100 050 До отказа Всегда - 0
  7 Seek_Error_Rate 0x000b 100 100 050 Предотказ Всегда - 0
  8 Seek_Time_Performance 0x0005 100 100 050 До сбоя Автономный режим — 0
  9 Power_On_Hours 0x0032 062 062 000 Old_age Всегда - 15428
 10 Spin_Retry_Count 0x0033 100 100 030 Предотказ Всегда - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Всегда - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Всегда - 32
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 39
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 31 (мин./макс. 15/39)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Всегда - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Всегда - 0
222 Loaded_Hours 0x0032 062 062 000 Old_age Всегда - 15427
223 Load_Retry_Count 0x0032 100 100 000 Old_age Всегда - 0
224 Load_Friction 0x0022 100 100 000 Old_age Всегда - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Всегда - 648
240 Head_Flying_Hours 0x0001 100 100 001 До сбоя Не в сети - 0

Я бы ожидал чего-то вроде последнего, чтобы иметь возможность настроить надлежащий (пусть даже не точный или надежный) мониторинг.

0 + 0

линукс

программный рейд

сигейт

Рейтинг:0

Server

Simon Richter

04.06.2023, 09:08

В этой статье говорится, что они обычно отображают атрибуты SMART, но по сомнительным причинам только SeaTool знает, как их интерпретировать, кроме как «годен/не годен».

В некоторой степени это верно для атрибутов SMART любого диска, поскольку машиночитаемым является только вычисленное значение, а интерпретация «сырого» значения несколько неопределенна. Температура по Цельсию очевидно, но время интегрирования для различных атрибутов «коэффициента ошибок» зависит от поставщика, как и пороговые значения. SeaTools знает, как интерпретировать необработанные значения, вот и все.

Я сомневаюсь, что они продали бы много жестких дисков, если бы поддержка SMART отсутствовала или была неточной, подавляющее большинство серверных дисков входят в массивы RAID, где SMART является единственным доступным стандартом мониторинга.

Они могут установить свое собственное программное обеспечение для анализа поверх RAID-контроллера, но если оно не интегрируется с минимальными усилиями в существующие решения для мониторинга, предоставляющие панель управления для всего центра обработки данных, это будет нишевое решение для рынка любителей. .

Это один из примеров класса проблем, которые я называю проблемами «на вершине пищевой цепи», когда несколько программных компонентов написаны как основной пользовательский интерфейс, в то время как пользователь требует, чтобы они были интегрированы в более крупную систему.

0 + 0

Nicola Mori

04.06.2023, 09:15

Я понимаю, но smartctl -A не сообщает об атрибутах, специфичных для поставщика, с наихудшими и пороговыми значениями; он просто сообщает текущую температуру и температуру срабатывания, а также некоторые цифры, такие как накопленные циклы пуска-остановки и накопленные циклы нагрузки-разгрузки без какого-либо эталонного диапазона. Так как же S.M.A.R.T. сделать вывод (даже не точный) о состоянии диска? Другими словами, я боюсь, что установка автоматизированной системы проверки работоспособности на основе S.M.A.R.T. может быть бесполезным, так как диски не предоставляют достаточно информации.

Ответить

Simon Richter

04.06.2023, 14:25

@NicolaMori, SMART выражает эталонный диапазон путем нормализации значений, поэтому для независимого от поставщика мониторинга все, что вам нужно, это проверить, превышают ли текущие и наихудшие значения пороговое значение, и движутся ли они к нему и как быстро.

Ответить

Simon Richter

04.06.2023, 14:29

FWIW, я действительно не беспокоюсь о большей части этого мониторинга, кроме рисования красивых графиков. У меня есть несколько дисков, которые были удалены из моего RAID из-за того, что они не могут хранить данные, но в SMART они выглядят абсолютно нормально.Все, что вы получаете от SMART, — это иногда предварительное предупреждение.

Ответить

Nicola Mori

04.06.2023, 14:58

Проблема в том, что с помощью smartctl -A я не получаю никакого значения, только температуру, поэтому нечего отслеживать. Смотрите редактирование в моем исходном посте. Диск S.M.A.R.T. поддержка рекламируется как доступная и включенная.

Ответить

Simon Richter

04.06.2023, 16:57

@NicolaMori, я исследовал это немного больше - дамп атрибута `-A` специфичен для ATA/SATA и не будет работать для дисков SAS. Расширенный дамп `-x` должен показать немного больше информации, но там он работает немного по-другому. На справочной странице `smartctl` есть несколько комментариев, где говорится `[ATA]` или `[SCSI]`, чтобы подчеркнуть различия.

Ответить

Nicola Mori

04.06.2023, 17:28

Спасибо большое за помощь. Я пробовал с `-x`, а также с `-d scsi`, но в конце концов в разделе SMART DATA больше не печатается информация. Я предполагаю, что Smart просто ведет себя по-другому для дисков SAS, и что единственными доступными показателями являются циклы запуска-остановки, циклы загрузки-выгрузки и элементы в списке дефектов, как сообщалось в моем первоначальном посте. Думаю, я просто посмотрю на синтетическое состояние здоровья (smartctl -H), кажется, результат не стоит усилий. Еще раз спасибо!

Ответить

Admin

Этот вопрос на других языках:

EN: How to monitor Segate HDD health under Linux?

TH: จะตรวจสอบสุขภาพ Segate HDD ภายใต้ Linux ได้อย่างไร

RO: Cum se monitorizează sănătatea HDD-ului Segate sub Linux?

RU: Как следить за здоровьем Segate HDD под Linux?

VI: Làm cách nào để theo dõi tình trạng ổ cứng Segate trong Linux?

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.