Я запускаю Kubernetes на нескольких компьютерах с «голым железом» с NetApp FAS для хранилища NFS. Все узлы — это Ubuntu 20.04 LTS, снабженные Ansible.
В идеале я хотел бы иметь аварийно-устойчивую среду, а это означает, что пока работает резервное копирование NetApp на ленту, я могу полностью восстановиться после любого типа потери машины или инфраструктуры (вы помните, что однажды она была сожжена пожаром в центре обработки данных). большая).
Для запущенных приложений внутри Kubernetes и несколько сервисов, работающих за его пределами (это всего лишь два DNS-сервера и сервис UDP), работают нормально: смонтируйте каталоги, содержащие данные сервисов, через NFS (или, в случае сервисов k8s, используйте Trident -поддерживаемые PVC), запускать моментальный снимок в NetApp каждые 24 часа, вот и все. Проверено, работает нормально.
Проблема заключается в самих узлах Kubernetes — я даже не знаю, сколькими способами эта штука хранит свои данные. есть вещи в /var/lib/кубелет/
, там конфиг и целая PKI в /etc/кубернетес
, ситцевые вещи в /etc/cni/net.d/calico-kubeconfig
... есть ли какое-нибудь руководство по развертыванию k8s с защитой от сбоев?