Разработать среду на основе gym для задачи RL

Цена договорная
11 апреля 2024, 15:04 • 3 отклика • 16 просмотров
Цель - обучить 2 алгоритма RL (Q, PPO) в среде, разработанной на основе gym. Адаптировать зависимости для запуска в колабе.

Результат:
- тетрадка колаб с кодом среды
- код обучения с графиком обучения
- визуализация поведения агента в среде, простое видео или gif с идеальной стратегией, отображаемое в колабе
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
 
5 месяцев назад