Мы планируем провести исследование ИИ с помощью HPC. Этот HPC будет использовать созданные нами наборы данных. Эти наборы данных представляют собой довольно большие подмножества всего набора данных (~ 1 ТБ). Все данные, которые мы собрали в ходе экспериментов, будут храниться в базе данных SQL. Мы хотим использовать SQL-запросы для извлечения из базы данных подмножеств, актуальных в данный момент времени, поэтому для этого мы разработали службу RESTful, которая позволяет людям отправлять очищенные запросы.
Есть некоторые ограничения, которые в настоящее время останавливают нашу установку.
У нас есть хост для службы RESTful, но использование на нем хранилища ~1 ТБ — это крайняя мера, и мы бы предпочли найти альтернативный способ делать что-то. Мне было интересно, возможно ли разместить базу данных на одном сервере, но фактические данные находятся на другом сервере? Так что, когда исследователь отправляет запрос в RESTful-сервис, SQL-сервер выбирает, какие файлы отправлять, возвращает их в restful-сервис, restful-сервис возвращает ссылки для скачивания на все наборы данных.
В настоящее время мы используем MySQL для хранения данных и экземпляр Flask, чтобы исследователи могли отправлять новые эксперименты и получать их.