Настрйока Airflow кластреа, рекомендации по структуре дагов и рефакториг одного дага

Цена договорная
06 марта 2023, 15:07 • 2 отклика • 40 просмотров
Необходимо настроить production кластер Airflow в облаке Yandex Cloud.
Характеристики "production" кластера:
1. Отказоустойчивость - ни один даг не виляет на другие доги и таски
2. Performance - кластер может параллельно обрабатывать сложные задачи по "перекладыванию" данных
3. Прозрачность - видно ошибки и скорость обработки задач

Также необходимо оптимизировать работу одного Дага. Python код работает, локально отрабатывает хорошо, но при запуске вместе с Airflow - падает или работает долго.

Суть Дага - скачиваем csv файл с Ftp (40гб) -> по строчно обрабатываем -> записываем в ClicHouse (объем порядка 200 млн строк)