Быстрый морфологический поиск в русском тексте (если возможно с GPU)

10 000 руб. за проект
05 сентября 2020, 07:52 • 7 откликов • 52 просмотра
Требуется морфологический поиск (не на стемминге). Я ранее использовал Sphinx, он во многом устраивает, однако мне не нравится его технологическая сложность, ориентированная на индексации больших объёмов текста. Туда же и Elastic.

Мне требуется поиск в микросервис: система получает ключевые слова и текст и тут же выдаёт релеватность, нигде ничего не храня и без базы данных.

Есть набор ключевых слов и фраз. Например:
квантовая физика
физика
атомные частицы

Есть текст статьи, например.

Ква́нтовая фи́зика — это раздел теоретической физики, в котором изучаются квантово-механические и квантово-полевые системы и законы их движения. Основные законы квантовой физики изучаются в рамках квантовой механики и квантовой теории поля и применяются в других разделах физики. Все современные космологические теории также опираются на квантовую механику, которая описывает поведение атомных и субатомных частиц. Квантовая физика сосредоточена только на математическом описании процессов наблюдения и измерения.

Алгоритм делает морфологический поиск тексте и выдаёт результат в виде json. На входе может целая книга, поэтому нужно бить на пакеты обработки (либо на входе я буду давать набор предолжений).
На выходе
фраза - id текста - число вхождений.

Нужно учитывать точное вхождение фразы и слова. Не точное, когда между словами фразы могут быть до 2-3 других слов. Пример 'атомные частицы' в фразе 'атомных и субатомных частиц'

Язык написания не важен, система Linux.
Обязательно использовать все ядра процессора.

Если возможно ускорить с помощью GPU было бы круто. Я столкнулся с крайне медленным поиском на процессорах, хоть с регулярными выражениями, хоть через сфинкс.

Бюджет обсудим.