Что сделано:
- исследование данных, подготовка данных для работы;
- подготовка итоговой таблицы;
- анализ распределения признаков;
- разработка синтетических признаков;
- проверка на мультиколлинеарность;
- оценка дисбаланса классов;
- отбор признаков;
- кодирование признаков;
- выбор и обучение моделей;
- тестирование модели;
- анализ и интерпретация важности признаков;
- анализ и интерпретация матрицы ошибок;
- итоговый вывод.
Результат: Разработана модель, прогноза оттока клиентов.
Стек: pandas, numpy, matplotlib, seaborn, scipy, ydata_profiling, phik, sklearn, lightgbm, catboost