Быстрый морфологический поиск в русском тексте (если возможно с GPU)
10 000 руб. за проект
Требуется морфологический поиск (не на стемминге). Я ранее использовал Sphinx, он во многом устраивает, однако мне не нравится его технологическая сложность, ориентированная на индексации больших объёмов текста. Туда же и Elastic.
Мне требуется поиск в микросервис: система получает ключевые слова и текст и тут же выдаёт релеватность, нигде ничего не храня и без базы данных.
Есть набор ключевых слов и фраз. Например:
квантовая физика
физика
атомные частицы
Есть текст статьи, например.
Ква́нтовая фи́зика — это раздел теоретической физики, в котором изучаются квантово-механические и квантово-полевые системы и законы их движения. Основные законы квантовой физики изучаются в рамках квантовой механики и квантовой теории поля и применяются в других разделах физики. Все современные космологические теории также опираются на квантовую механику, которая описывает поведение атомных и субатомных частиц. Квантовая физика сосредоточена только на математическом описании процессов наблюдения и измерения.
Алгоритм делает морфологический поиск тексте и выдаёт результат в виде json. На входе может целая книга, поэтому нужно бить на пакеты обработки (либо на входе я буду давать набор предолжений).
На выходе
фраза - id текста - число вхождений.
Нужно учитывать точное вхождение фразы и слова. Не точное, когда между словами фразы могут быть до 2-3 других слов. Пример 'атомные частицы' в фразе 'атомных и субатомных частиц'
Язык написания не важен, система Linux.
Обязательно использовать все ядра процессора.
Если возможно ускорить с помощью GPU было бы круто. Я столкнулся с крайне медленным поиском на процессорах, хоть с регулярными выражениями, хоть через сфинкс.
Бюджет обсудим.
Мне требуется поиск в микросервис: система получает ключевые слова и текст и тут же выдаёт релеватность, нигде ничего не храня и без базы данных.
Есть набор ключевых слов и фраз. Например:
квантовая физика
физика
атомные частицы
Есть текст статьи, например.
Ква́нтовая фи́зика — это раздел теоретической физики, в котором изучаются квантово-механические и квантово-полевые системы и законы их движения. Основные законы квантовой физики изучаются в рамках квантовой механики и квантовой теории поля и применяются в других разделах физики. Все современные космологические теории также опираются на квантовую механику, которая описывает поведение атомных и субатомных частиц. Квантовая физика сосредоточена только на математическом описании процессов наблюдения и измерения.
Алгоритм делает морфологический поиск тексте и выдаёт результат в виде json. На входе может целая книга, поэтому нужно бить на пакеты обработки (либо на входе я буду давать набор предолжений).
На выходе
фраза - id текста - число вхождений.
Нужно учитывать точное вхождение фразы и слова. Не точное, когда между словами фразы могут быть до 2-3 других слов. Пример 'атомные частицы' в фразе 'атомных и субатомных частиц'
Язык написания не важен, система Linux.
Обязательно использовать все ядра процессора.
Если возможно ускорить с помощью GPU было бы круто. Я столкнулся с крайне медленным поиском на процессорах, хоть с регулярными выражениями, хоть через сфинкс.
Бюджет обсудим.
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.