Исследовательский анализ данных (машинное обучение)

1 500 руб. за проект
06 июля 2022, 00:32 • 5 откликов • 116 просмотров
В рамках курса по аналитике данных требуется выполнить следующее задание:
  • Используя платформу (любую на выбор Knime, RapidMiner, Trifacta, Loginom) выполнить консолидацию данных кейса, провести очистку, трансформацию данных (ETL), выполнить preprocessing данных. Обучить и оценить по метрикам качества модели машинного обучения (использовать различные алгоритмы); сравнить полученные результаты. Обогатить данные кейса результатами машинного обучения (ABC-XYZ, RFM-анализ, задачи классификации, регрессии, кластеризации – одна или все на выбор исходя из данных кейса). Экспортировать подготовленный датасет в BigQuery (или в формате .csv в Google Drive).
  • В Colab (подключившись к BigQuery или используя подготовленный датасет .csv в Google Drive) провести EDA с использованием любую библиотеку Python (pandas-profiling, dataprep, Sweetviz или другую), обучить и сравнивать модели машинного обучения с использованием библиотеки scikit-learn (или LightGBM,XGBoost,CatBoost, h2o-3, AutoGluon, PyCaret используя алгоритмы регрессии, градиентного бустинга, случайного леса). Провести прогнозирование ответа лучшей модели на новых данных (сгенерировать самостоятельно используя исходные данные). Сравнить результаты полученные в платформах Data Science and Machine Learning.
  • На выбор 3, 4, 5 пункты: в любой из BI-платформ (но лучше во всех трех):
  • Подключившись к BigQuery (или использовать подготовленный датасет) создать в Power BI Desktop выражения KPI с использованием выражений анализа данных (DAX), разработать несколько отчетов в Power BI, опубликовать его в корпоративном облачном сервисе Power BI. Выявить инсайты, оформить их в “закладках”, создать информационные панели мониторинга в Power BI. Провести машинное обучение. Сравнить результатами полученными в платформах DSML и Colab. Внедрить интерактивные отчеты в Colab.
  • В Tableau Desktop (скачать триальную версию) подключившись к BigQuery (илииспользовать подготовленный датасет) построить дашборды, выявить инсайты, оформить истории (Story), опубликовать в своем аккаунте в Tableau Public, внедрить интерактивные отчеты в Colab.
  • Подключившись к BigQuery (илииспользовать подготовленный датасет) создать в Qlik Sense выражения KPI с использованием языка выражений анализа множеств, используя интеллектуальный помощник, создать дашборды, выявить инсайты и создать повествования данных (сторителлинг), опубликовать в потоке Qlik Sense Cloud в своем аккаунте, отправить на проверку преподавателю (предоставить доступ)