Хабр Фриланс

Python Developer, ML engineer

Разговорный ассистент с модальностью изображений, который использует контекстуальные изображения (так называемые мемы) в диалоге с пользователем, что делает общение более живым и непринужденным.
Для обучения модели были собраны 2 датасета формата csv:

Датасет с картинками и их описанием
Датасет с контекстными диалогами и используемыми в них картинками

Для обучения и работы был использован русскоязычный CLIP, Fromage.
Обучение модели для подбора нужного изображения по контексту происходило с использованием метода нахождения минимального косинусного расстояния между эмбеддингом описания и эмбеддингом изображения.

Ссылка на Github проекта: IMAGEnize GPT

IMAGEnizeGPT