Имплементировал модель преобразования текста в речь (TextToSpeech) под названием Tortoise, для дальнейшего обучения. Разработал пайплайн, состоящий из диарезации, обнаружения голосовой активности и распознавания речи, чтобы собрать 50 тысяч часов аудиосэмплов из аудиокниг самым быстрым способом.