Разработать модель NLP
5 000 руб. за проект
Требуется разработать модель, которая будет извлекать нужный кусок текста из документа для того, чтобы сформировать анкету заявки. То, какой именно фрагмент текста нужно извлечь, зависит от пункта анкеты, соответствующего документу. Всего в каждом документе, с которыми вы будет работать, есть 1 из 2-х пунктов анкеты, по которым необходимо извлекать кусочки из текста:
- обеспечение исполнения контракта
- обеспечение гарантийных обязательств
Соответственно, ваша модель, принимая на вход `текст документа` и `наименование одного из двух пунктов`, должна возвращать `соответствующий кусочек текста из текста документа`.
# Данные
### train.json
Данные для обучения в формате json имеют следующие поля:
- `id`: int - id документа
- `text`: str - текст документа, в котором может содержаться фрагмент текста, соответствующий пункту анкеты из поля `label`
- `label`: str - название пункта анкеты. Может принимать одно из двух значений: `обеспечение исполнения контракта` или `обеспечение гарантийных обязательств`
- `extracted_part`: dict следующего формата:
```
{
'text': [фрагмент текста из поля `text`, соответствующий пункту анкеты],
'answer_start': [индекс символа начала фрагмента текста в тексте документа],
'answer_end': [индекс символа конца фрагмента текста в тексте документа]
}
Для демонстрации работы модели используйте данные из файла `test.json`. В нем есть все те же поля, что и в файле `train.json`, кроме поля `extracted_part` - именно его вам и нужно будет добавить
`текст документа` и `пункт анкеты` извлекать из текста документа нужный фрагмент текста.
Обучив модель, добавьте в файл `test.json` поле `extracted_part` в том же формате, что и в файле `train.json`. Новый файл назовите `predictions.json`
Для оценки будет использоваться метрика`Accuracy`: доля наблюдений, в которых извлеченный моделью фрагмент текста полностью соответствует фактически требуемому фрагменту.
Ссылки на файлы:
https://drive.google.com/file/d/1DLgj6zaHy6bLfXo61...
https://drive.google.com/file/d/1HdE_HyqpGeOLgExFv...
- обеспечение исполнения контракта
- обеспечение гарантийных обязательств
Соответственно, ваша модель, принимая на вход `текст документа` и `наименование одного из двух пунктов`, должна возвращать `соответствующий кусочек текста из текста документа`.
# Данные
### train.json
Данные для обучения в формате json имеют следующие поля:
- `id`: int - id документа
- `text`: str - текст документа, в котором может содержаться фрагмент текста, соответствующий пункту анкеты из поля `label`
- `label`: str - название пункта анкеты. Может принимать одно из двух значений: `обеспечение исполнения контракта` или `обеспечение гарантийных обязательств`
- `extracted_part`: dict следующего формата:
```
{
'text': [фрагмент текста из поля `text`, соответствующий пункту анкеты],
'answer_start': [индекс символа начала фрагмента текста в тексте документа],
'answer_end': [индекс символа конца фрагмента текста в тексте документа]
}
Для демонстрации работы модели используйте данные из файла `test.json`. В нем есть все те же поля, что и в файле `train.json`, кроме поля `extracted_part` - именно его вам и нужно будет добавить
`текст документа` и `пункт анкеты` извлекать из текста документа нужный фрагмент текста.
Обучив модель, добавьте в файл `test.json` поле `extracted_part` в том же формате, что и в файле `train.json`. Новый файл назовите `predictions.json`
Для оценки будет использоваться метрика`Accuracy`: доля наблюдений, в которых извлеченный моделью фрагмент текста полностью соответствует фактически требуемому фрагменту.
Ссылки на файлы:
https://drive.google.com/file/d/1DLgj6zaHy6bLfXo61...
https://drive.google.com/file/d/1HdE_HyqpGeOLgExFv...
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.