Хорошая технология для крупномасштабной пакетной обработки множества файлов S3 в AWS Batch with Spot instances.

Zorgoth

23.09.2023, 15:44

У меня есть огромный массив текстовых данных, хранящихся в миллионах файлов на S3. Очень часто я хочу выполнить некоторую операцию над каждым из этих файлов, которая использует только этот файл и создает из него новый файл. Обычно я использую для этого DataBricks моей компании, но он настолько заблокирован, что сложно развернуть там сложный код.

Я рассматривал возможность использования AWS Batch со спотовыми инстансами в качестве альтернативы DataBricks для некоторых из этих заданий. Я определенно хотел бы использовать несколько узлов, потому что самый большой отдельный узел был бы совершенно неспособен завершить работу в разумные сроки. Существуют, конечно, такие технологии, как Apache Spark, предназначенные для распределенных вычислений, но я (а) не уверен в своей способности настроить свой собственный кластер Spark и (б) не уверен, что Spark необходим для такой простой распределенная вычислительная работа. По сути, все, что мне нужно, — это чтобы узлы сообщали, над какими файлами они планируют работать, что они закончили и когда отключаются.Было бы просто, хотя и утомительно хранить всю эту информацию в базе данных, и мне не нужно переводить все мои данные в другую распределенную файловую систему.

Существует ли хорошая существующая технология для такого варианта использования?

0 + 0

пакетная обработка

амазон-веб-сервисы

распределенных вычислений

Tim

23.09.2023, 19:57

Вы упомянули пакетную службу AWS. Что ваше исследование сказало вам о том, подходит ли оно для вашего варианта использования?

Ответить

Zorgoth

23.09.2023, 20:05

О, хороший момент. Я только что понял после просмотра, что многоузловые задания не поддерживаются спотовыми инстансами. Похоже, мне пришлось бы отправить несколько одноузловых заданий, если бы я собирался его использовать, что несколько менее привлекательно.

Ответить

Admin

Этот вопрос на других языках:

EN: Good technology for a large-scale batch operation on many S3 files in AWS Batch with Spot instances

TH: เทคโนโลยีที่ดีสำหรับการดำเนินการเป็นชุดขนาดใหญ่ในไฟล์ S3 จำนวนมากใน AWS Batch พร้อมอินสแตนซ์ Spot

RO: Tehnologie bună pentru o operațiune pe lot la scară largă pe multe fișiere S3 în AWS Batch cu instanțe Spot

RU: Хорошая технология для крупномасштабной пакетной обработки множества файлов S3 в AWS Batch with Spot instances.

VI: Công nghệ tốt cho hoạt động hàng loạt quy mô lớn trên nhiều tệp S3 trong AWS Batch với phiên bản Spot

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.