Разработать среду на основе gym для задачи RL
Цена договорная
Цель - обучить 2 алгоритма RL (Q, PPO) в среде, разработанной на основе gym. Адаптировать зависимости для запуска в колабе.
Результат:
- тетрадка колаб с кодом среды
- код обучения с графиком обучения
- визуализация поведения агента в среде, простое видео или gif с идеальной стратегией, отображаемое в колабе
Результат:
- тетрадка колаб с кодом среды
- код обучения с графиком обучения
- визуализация поведения агента в среде, простое видео или gif с идеальной стратегией, отображаемое в колабе
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.