TensorFlow классификатор

10 000 руб. за проект
25 февраля 2021, 23:49 • 4 отклика • 43 просмотра
Есть 1ГБ текста, - около 400 тысяч xml документов.

Нужно построить T5 text2text классификатор с нуля.

https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb

Для этого потребуется выполнить следующие шаги:
  1. Построить sentencepiece (custom vocabulary токенов).
  2. Натренировать модель на эти xml документы и wikipedia (необходимо сбалансировать).
  3. Fine tune эту модель: Документ (input) → категория/описание (label)
Задание должно быть выполнено на колабе и бежать на TPU.
Интересует чистый, хорошо документированный код.