Настройте кластер Hadoop из 4 узлов (1 главный, 3 рабочих) как на AWS, так и на GCP. Однако наблюдается довольно высокий выход из сети для обеих платформ.
Кластерные приложения AWS: Hadoop, Yarn
Кластерные приложения GCP: Hadoop, Yarn, Hive
AWS привел к 244,027 ГБ (21,96 доллара США). Это было «помиловано» после объяснения службе поддержки AWS. Однако не было предоставлено никакой информации о трафике для предотвращения возникновения подобных ситуаций в будущем. Следовательно, поскольку на AWS нет кредитов, пришлось поставить кластер.
GCP: та же проблема, но по крайней мере с кредитными лимитами.
Вероятно, связано: получили «потенциальное нарушение обслуживания» из-за DDOS-атак со стороны AWS и GCP. Недавно получил его от GCP при настройке Kerberos в кластере.
До сих пор:
- Настройте узлы для связи друг с другом с использованием внутренних IP-адресов (ранее это был внешний IP-адрес).
- Правила брандмауэра только для соответствующих портов.
- Закройте все вкладки браузера пользовательского интерфейса для приложений (Hive, HDFS, Yarn), когда они не используются.
- Запрошена поддержка AWS для получения помощи по передовым методам и информации о трафике. Получено много ссылок на материалы AWS, в основном по настройке оповещений о выставлении счетов (а не по настройке или устранению неполадок).
- Поддержка GCP очень полезна. Оплата GCP проста. Запрошена техподдержка в чате - на рассмотрении.
Любая помощь в том, как отслеживать, откуда идет трафик.
Обновлять:
Работая только на двух узлах, настраивающих Kerberos, похоже, я израсходовал 100 долларов из оставшихся кредитов (снова на выходе) и не могу получить доступ к своему проекту, если не обновлюсь до полной учетной записи.