Разработать(найти и запустить алгоритм форматирования текста)

20 000 руб. за проект
18 апреля 2021, 23:24 • 4 отклика • 55 просмотров
Задание
Предыстория В рамках одного пилота мы собираем кейсы на английском языке и добавляем их в Airtable.

Примеры кейсов


Когда мы добавляем описание в поле Description,

  1. Для веб страниц мы используем airtable web clipper, который по непонятной причине урезает форматирование (хотя в описании сказано, что он сохранит форматирование) и текст становится сплошняком - пример:
  2. Для pdf файлов мы просто копируем и вставляем и текст начинает переноситься вот так . Мы пробовали готовый экстрактор данных для PDF, который интегрируется с Airtable, но он использует вот этот инструмент для извлечения, который дает вот такой печальный результат

Проблемы
  1. Текст обрезается и переносится на новую строку
  2. Для того, чтобы отформатировать текст - потребуется очень много человеческих усилий, в том числе, потому что в самом airtable это неудобно делать
  3. Если текст не форматировать, то он нечитаемый и клиентам/пользователям будет сложно быстро вычленить смысл
  4. Мы планировали использовать перефразатор, чтобы удалить права на контент и не запрашивать все время право на использование кейса, но, если текст в таком виде, то перефразатор не сработает (предложение разбивается по середине и перестает восприниматься перефразатором, как единое целое)