Выполнить задания по анализу данных в Python

1 500 руб. за проект
09 апреля 2020, 01:55 • 8 откликов • 57 просмотров
Необходимо выполнить следующие действия с уже имеющимися дата сетами:
  1. Провести обучение по трем классификаторам (knn, naïve bayes, tree). Необходимо делить датасет в пропорции 67 на 33. Провести кросс-валидацию на 4 запуска. При обучении необходимо проводить поиск оптимальных параметров на основе F1 score.
  2. Определить 12 наилучших фич для каждого из классов
  3. Определить какие из наилучших фич входят во все классы.
  4. Провести усечение датасета и пересчитать классификаторы (та же пропорция и те же параметры), показать как изменилось качество работы классификаторов на новом датасете.

  1. Объединить три файла (в именах этих файлов есть слово ‘labelled’) в один файл
  2. Разделить датасет в пропорции 65 на 35
  3. Определить наилучший классификатор (svm, naïve Bayes, tree). При обучении использовать кросс - валидацию на 6 запусков. При обучении подобрать наиболее оптимальные значения гипер-параметров.
  4. Сделать предсказание на тестовом датасете.
  5. Определить какой из трех источников данных дает наиболее позитивную оценку. Данная оценка должна рассматриваться как сумма соответствующих оценок.