Сосед по дому предложил мне использовать btrfs вместо того, что я делал до сих пор, то есть использовать mdadm с клонированными дисками и добавлять в массив дополнительный диск для «клонирования» резервной копии. В системе три диска, все физически разные модели:
- /dev/sda: TOSHIBA HDWQ140
- /dev/sdb: HGST HUS724040AL
- /dev/sdc: WDC WDS250G2B0B
Что ж, я установил btrfs, но теперь он работает уже почти год, и я обнаружил, что мне нужно было запускать еженедельное задание cron, чтобы «очистить» его.Я начал пытаться настроить скрипт для этого, хотя это кажется глупой системой DIY, которая требует, чтобы вы погуглили скрипт (лучший хит, который я нашел, был где-то вроде 2014) и установил его, чтобы ваша файловая система работала.
Пока я занимался всеми этими административными делами, я обнаружил некоторые файлы, которые нужно было переместить... Я пропущу кровавые подробности, но перемещение файлов из одной файловой системы btrfs в другую и обратно приводило к всевозможным "вводу/выводу". ошибки" (никогда не видел такого с ext4), и даже этот драгоценный камень:
4 января 21:19:19 ядро хоста: [9771285.171522] попытка доступа за пределы устройства
4 января 21:19:19 ядро хоста: [9771285.171522] sda1: rw=1, хочу=70370535518208, лимит=7814035087
4 января 21:19:19 ядро хоста: [9771285.171529] Ошибка BTRFS (устройство sda1): bdev /dev/sda1 ошибки: wr 1, rd 0, сброс 0, повреждение 5, gen 0
Я предполагаю, что это связано. Но вот настоящая глупость. Я получаю ошибки контрольной суммы не только в файлах, которые лежат в течение года, но и в файлах, которые я буквально скопировал всего несколько часов назад. на другой физический диск. Кроме того, почти все они находятся в огромных файлах (таких как ISO-образы DVD), если это что-то указывает?
Так что да, я мог наблюдать одновременный сбой тройного диска, или btrfs просто повреждает мои файлы для меня?
Кроме того, каждый пост от знающих людей btrfs включает в себя милое маленькое «ну, вы должны восстановить это из резервных копий… вы делать у вас есть резервные копии, не так ли». Так скажите мне, ребята, что именно вы используете для резервного копирования жесткого диска емкостью 4 ТБ? тогда какая польза от резервных копий на жесткие диски?
Итак, серьезные вопросы:
- Являются ли эти ошибки контрольной суммы действительно нормальными и ожидаемыми?
- Почему я вижу их в файлах, которые были скопированы только сегодня?
- Достаточно ли обычных скрабов для защиты от этого?
- Должен ли я покупать новые жесткие диски и выбрасывать все те, которые в настоящее время находятся в машине, потому что они действительно выходят из строя?
- Как делать Вы рекомендуете создавать резервные копии дисков объемом несколько терабайт?
Обновление 07.01.2022: я побежал смартктл на всех дисках, и они не сообщают о каких-либо проблемах. Необработанный UDMA_CRC_Error_Count равен 0 для всех дисков. Попытка восстановить поврежденные файлы... tar-файл, скопированный на машину, не удалось выполнить после нескольких файлов с ошибкой ввода-вывода. На самом деле понятия не имею, что здесь происходит:
- Если бы диски или кабели были неисправны, это бы отразилось в SMART, верно?
- Если бы процессор или память были плохими, система не работала бы безупречно? (В настоящее время до 115 дней без явных проблем)?
- Если бы это была повсеместная ошибка с btrfs, разве она не распространилась бы по всему Интернету?
Так где же на самом деле может быть проблема?