Рейтинг:0

Хорошая технология для крупномасштабной пакетной обработки множества файлов S3 в AWS Batch with Spot instances.

флаг lb

У меня есть огромный массив текстовых данных, хранящихся в миллионах файлов на S3. Очень часто я хочу выполнить некоторую операцию над каждым из этих файлов, которая использует только этот файл и создает из него новый файл. Обычно я использую для этого DataBricks моей компании, но он настолько заблокирован, что сложно развернуть там сложный код.

Я рассматривал возможность использования AWS Batch со спотовыми инстансами в качестве альтернативы DataBricks для некоторых из этих заданий. Я определенно хотел бы использовать несколько узлов, потому что самый большой отдельный узел был бы совершенно неспособен завершить работу в разумные сроки. Существуют, конечно, такие технологии, как Apache Spark, предназначенные для распределенных вычислений, но я (а) не уверен в своей способности настроить свой собственный кластер Spark и (б) не уверен, что Spark необходим для такой простой распределенная вычислительная работа. По сути, все, что мне нужно, — это чтобы узлы сообщали, над какими файлами они планируют работать, что они закончили и когда отключаются.Было бы просто, хотя и утомительно хранить всю эту информацию в базе данных, и мне не нужно переводить все мои данные в другую распределенную файловую систему.

Существует ли хорошая существующая технология для такого варианта использования?

Tim avatar
флаг gp
Tim
Вы упомянули пакетную службу AWS. Что ваше исследование сказало вам о том, подходит ли оно для вашего варианта использования?
Zorgoth avatar
флаг lb
О, хороший момент. Я только что понял после просмотра, что многоузловые задания не поддерживаются спотовыми инстансами. Похоже, мне пришлось бы отправить несколько одноузловых заданий, если бы я собирался его использовать, что несколько менее привлекательно.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.