Разговорный ассистент с модальностью изображений, который использует контекстуальные изображения (так называемые мемы) в диалоге с пользователем, что делает общение более живым и непринужденным.
Для обучения модели были собраны 2 датасета формата csv:
- Датасет с картинками и их описанием
- Датасет с контекстными диалогами и используемыми в них картинками
Для обучения и работы был использован русскоязычный CLIP, Fromage.
Обучение модели для подбора нужного изображения по контексту происходило с использованием метода нахождения минимального косинусного расстояния между эмбеддингом описания и эмбеддингом изображения.
Ссылка на Github проекта:
IMAGEnize GPT