Доработка платформы данных

75 000 руб. за проект
06 сентября 2024, 12:39 • 6 откликов • 110 просмотров
Есть платформа, размещенная на Яндекс Облаке. Данные с парсеров прилетают в через Kafka Connector в топики и сохраняются на диск S3. Дальше данные забираются по триггеру Spark job-ами в пайплайн, где дедуплицируются, преобразуются и сохраняются в Postgesql и Clickhouse.

Текущие задачи:
1) Оптимизация Kafka.
2) Spark Jobs, нужно слегка видоизменить пайплайн, а именно изменить поля взимаемые из json в s3.
3) Нужно решить проблему с мерджем таблиц, а именно: есть несколько одинаковых по структуре таблицы, нужно перегнать данные из них в одну.
4) Оптимизация SQL запросов, по возможности переписать на matview.
5) Нужно написать еще несколько SQL запросов: запрос на получение информации о товаре, запрос для построения лайнчарта за временной период (дни, месяцы, года).

Подробности и документацию предоставим при общении.
Просьба оставлять контакт Telegram для связи.