Организация конвейера обработки данных и процессов ETL
Цена договорная
Необходимо автоматизировать обработку данных онлайн маркетплейса для сервиса цифровой аналитики.
В задачи входит:
В задачи входит:
- Проектирование и разработка всего цикла data-flow по загрузке, обработке и выгрузке данных. Исходные данные хранятся в PostgreSQL.
- Развертывания оркестратора Dagster / Airflow / etc для организации структурированных конвейеров обработки данных: ETL, тесты.
- Загрузка данных из data-каталогов: PostgreSQL, предусмотреть возможность загрузки из различных источников, напр. объектных хранилищ AWS S3 и тп.
- Подготовка витрин данных для использования в веб-сервисе аналитики. Витрина данных представляет собой БД/таблицы в PostgreSQL, которые будут использоваться клиентами сервиса. Подразумевается работа над сырыми данными, путем применений операций расчетов над данными.
- Проектирование и разработка способов переключения витрин данных после цикла обработки. После обработки и выгрузки готовых данных необходимо доставлять свежие данные.
- Настройка мониторинга и алертинга jobs в пайплайнах.
- Устранение расхождения между исходными данными: пропуски, шумы, ошибки, неожиданные данные.
- Контроль готовых данных. Возможность контроля над багами и просчетами в формулах расчета метрик.
- Проектирование и разработка долгосрочного оптимального хранилища сырых данных. Сейчас хранится в PostgreSQL в jsonb, возможно стоит найти более оптимальный способ путем понимания плюсов и минусов текущего способа. Низкий приоритет задачи.
Отзывы
Николай один из самых компетентных и ответственных специалистов с которыми доводилось работать. Таких как он единицы! Рекомендую!
1 год
назад
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.