Настроить Elasticsearch для поиска по pdf документам

Цена договорная
03 января 2022, 17:18 • 5 откликов • 35 просмотров
Нужен поиск по базе инструкций для различной техники. База документов представляет собой каталог html файлов. Поисковые запросы представляют собой сочетание [бренд]+[модель]. Например "Asus P1-P5945G". Морфология не нужна, так как бренды и модели не склоняются. В базе есть документы на различных языках.

Требуется только настройка Elasticsearch, прикручивать поиск к сайту не нужно.

Пожелания к поиску:
1) Искомые слова в начале документа должны иметь больший вес, чем если они в конце документа
2) Искомые слова в заголовке документа важнее, чем в тексте документа
3) Близкие слова важнее, чем далекие. Например, если в документе идут подряд слова "Asus P1-P5945G", то такой документ более важен, чем документ, в котором "Asus" в начале, "P1" в середине, а "P5945G" в конце
4) Пробелы могут стоять в любой последовательности. Например, в запросе "P1 P5945G", а в документе "P1P5 945G". И такой документ должен найтись.
5) Строка в запросе может быть короче, чем в тексте. Например, в запросе "P5945G", а в документе "P5945Gxxxx"
6) В запросе могут быть опечатки в нескольких символах. Но результаты с опечатками должны быть менее важными, чем с точным совпадением.
7) Может быть несколько вариантов написания бренда. Например при запросе "HP" должен найтись документ, в котором написано "Hewlett-Packard"

Оплачивать могу как по часам так и фиксированную цену за проект.

Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
 
3 года назад
R50 8663bed8f86cd1ba8c0fc643f18c87df
Фрилансер
Было приятно сотрудничать с Михаилом, четкий список требований, понимание процессов.
3 года назад