Небольшой сервис (задачи по бэкенду, парсингу, ботам)

40 000 руб. за проект
27 сентября 2020, 14:06 • 17 откликов • 176 просмотров
Необходимо будет написать небольшой сервис для матчинга людей по интересам. Верхнеуровнево сервис будет состоять из 3-х (или даже 4-х) частей. Поверхностно опишу тут, а так, конечно, надо будет обсуждать голосом.

Часть 1. Нормализация данных
1.1 Парсинг
Нужно будет делать в Google запросы по типу "RHCP яндекс музыка", открывать первую ссылку, выдаваемую Google-ом и далее со страницы исполнителя на Яндекс.музыке забирать некоторые данные.
Всего будет три ресурса с такой логикой: яндекс музыка, кинопоиск и литрес.

1.2. API
Надо будет дергать Yandex Geo API. Простейшая работа (даже я, не будучи программистом через POSTman влегкую с ним работаю).

Важно: запросов будет не много, а-ля 1000 в день – поэтому сложностей с парсингом на таких объемах возникнуть вообще не должно. Если что – бюджет на прокси выделим (но не факт, что это вообще понадобится).

Часть 2 Матчинг людей друг с другом
2.1. Простейшие вещи как "оба слушают Басту". Логика очевиднйшая.

2.2. Матчинг по расстоянию Левентштейна. Кто-то пишет "плавать", а кто-то "Плавание". Порог расстояния выберем вместе.

2.3. Матчинг по смыслу (ака векторам). Возьмем открытую библиотеку, на которой построено rusvectores.org/ru/misc/ и будет прогонять пары слов там. На основе этого будем матчить. Порог коэффициентов выберем вместе.

Часть 3 Сервис для уточнения данных
В пунктах 2.2. и 2.3. все не так очевидно, поэтому на определенных порогах коэффициентов не обойдется без ручного вмешательства с нашей стороны. Для этого, на мой взгляд. оптимальнее всего будет сделать телеграмм ботов, которые будут писать и спрашивать уточнения у нас. К примеру, бот может писать "музыка" и "виолончель" – это близкие по смыслу слова да/нет. И мы выбираем да/нет.

Часть 4 Боты
Все данные сейчас собираются и отправляются через конструктор ботов. Возможно есть смысл сделать бота под наши нужды и не пользоваться сторонним, а, возможно, просто с текущим по API интегрируемся.