Создание SQL-совместимого хранилища в AWS/GCP

1 000 000 руб. за проект
28 мая 2022, 00:48 • 6 откликов • 104 просмотра
Привет!
Ищу крутого Java инженера с опытом в облаках AWS/GCP.
В существующем приложении мы хотим сделать подсистему работы с данными с синтаксисом SQL на базе данных, лежащих в S3 / Cloud Storage.

Сейчас:
  • есть данные в parquet/TSV форматах в облаке
  • данные читаем со Spark кластеров, запускаемых по требованию
  • Spark надоел: медленный, писать распределенный код сложно, тестить долго и муторно, приходится оптимизировать код
  • Высокие косты арендуемого под Spark железа
  • Сами задачи для подсчета при этом зачастую могут решены SQL, просто размерность данных побольше классической реляционной базы
Чего хочется:
  • Намапить на файлы движок AWS Athena (оно же Presto), в GCP - загрузить данные в Big Query
  • Получить чистые хорошие таблицы
  • Запускать SQL по этим данным
  • Что обещает экономию около 100х по сравнению с железом on-demand cluster
Для этой амбициозной цели нужны руки и хорошие мозги. Длина проекта - около 3 месяцев.
Приложение в вебе, написано на Java и Spring.