Рейтинг:0

Server

Как скачать миллионы файлов s3 и сжать их на лету?

jorge

27.06.2023, 09:09

У меня есть корзина S3 с миллионами файлов, и я хочу загрузить их все. Поскольку у меня не хватает памяти, я хотел бы скачать их, сжать на лету и только потом сохранить. Как мне это сделать?

Чтобы проиллюстрировать, что я имею в виду: aws s3 cp --recursive s3://bucket | gzip > файл

374

0 + 0

амазон-s3

амазон-веб-сервисы

aws-кли

Hennes

27.06.2023, 10:40

Вместо >file вы, вероятно, можете использовать netcat (канал через nc).

Ответить

Tim

27.06.2023, 16:55

Пара идей 1) Смонтировать S3 как диск (погуглите) и заархивировать оттуда 2) Получить спотовый экземпляр, скачать и заархивировать. Убедитесь, что вы используете конечную точку шлюза S3 в своем VPC, чтобы сократить расходы.

Ответить

shearn89

28.06.2023, 09:39

Вы также можете написать лямбду, которая берет путь от S3 и сжимает содержимое, а затем возвращает сжатый файл. Затем вы можете использовать интерфейс командной строки aws для просмотра списка файлов и отправки запросов в лямбду.

Ответить

John Rotenstein

11.07.2023, 23:39

"Скачать" куда? На инстанс Amazon EC2 или на собственный компьютер?

Ответить

Рейтинг:0

Server

Tim P

28.06.2023, 14:08

Неясно, хотите ли вы сохранить несжатые объекты в S3 или содержимое корзины все еще меняется.

Один из вариантов, который у вас есть, - использовать Инвентарь S3. Это не мгновенно, но он автоматически сгенерирует список объектов в ведре и запишет его в ведро S3 (такое же ведро или другое). Вы можете прочитать этот список в небольшом скрипте (в зависимости от того, что вам удобно) и заставить его работать с одним объектом за раз. Используйте интерфейс командной строки S3, чтобы извлечь объект, а затем сжать его с помощью инструментов ОС/скрипта.

Я настоятельно рекомендую встроить что-то, что проверяет, существует ли уже сжатый объект, чтобы вы могли перезапустить процесс в случае сбоя или добавления новых объектов без необходимости повторной обработки всего.

Если вы записываете сжатые объекты обратно в S3, рассмотрите возможность использования экземпляра EC2 или Lambda. С Lambda вам может понадобиться использовать файловый поток для сжатия файла на лету, а не для его извлечения. Вы должны быть в состоянии найти примеры этого, по крайней мере, для Python, если не для других поддерживаемых языков.

-- Одно слово предостережения, сделать грубый расчет того, сколько это будет стоить. Запросы на получение довольно дешевы, но передача данных вне может быть дорого. Кроме того, если вы используете любой класс хранилища, кроме Standard, с ним, вероятно, будут связаны затраты на извлечение.

0 + 0

Admin

Этот вопрос на других языках:

EN: How to download millions of s3 files and compress them on the fly?

TH: จะดาวน์โหลดไฟล์ s3 หลายล้านไฟล์และบีบอัดได้ทันทีได้อย่างไร

RO: Cum să descărcați milioane de fișiere s3 și să le comprimați din mers?

RU: Как скачать миллионы файлов s3 и сжать их на лету?

VI: Làm cách nào để tải xuống hàng triệu tệp s3 và nén chúng nhanh chóng?

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.