Развернуть нейросети для описания изображений

35 000 руб. за проект
20 июня 2024, 13:26 • 7 откликов • 75 просмотров
  1. Развернуть нейросети для описания изображений с открытым исходным кодом. Необходим скрипт автоматизирующий разворачивание подобного интерфейса на личном компьютере/сервере без необходимости задействовать технического специалиста с возможностью регулирования настроек нейросети.
  2. Разработать интерфейс для взаимодействия с нейросетями. У интерфейса должен быть единый формат ввода изображения и вывода описания независимо от используемой нейросети.

Примеры нейросетей для описания изображений с открытым исходным кодом:

1. CLIP (Contrastive Language–Image Pretraining)

CLIP - это модель от OpenAI, которая обучена связывать изображения и текст. Она может использоваться для создания описаний изображений и для других задач компьютерного зрения.


Репозиторий: OpenAI CLIP GitHub

2. VGG Image Annotator (VIA)

VIA - это инструмент для аннотации изображений и видео, который также поддерживает создание описаний для изображений.


Репозиторий: VIA GitHub

3. Show, Attend and Tell (Attention-based Image Captioning)

Это нейросеть, использующая механизмы внимания для генерации описаний изображений. Она была разработана исследователями из Google.


Репозиторий: Show, Attend and Tell GitHub

4. DenseCap (Dense Captioning)

DenseCap - это модель, которая способна генерировать описания для нескольких регионов в изображении.


Репозиторий: DenseCap GitHub

5. Image Captioning by Microsoft Research

Эта модель была разработана командой Microsoft Research и использует CNN и RNN для создания описаний изображений.


Репозиторий: Image Captioning GitHub

6. NeuralTalk2

NeuralTalk2 - это проект, который использует архитектуру LSTM для генерации описаний изображений.


Репозиторий: NeuralTalk2 GitHub

7. AttnGAN (Attention Generative Adversarial Network)

AttnGAN - это модель, которая использует GAN и механизмы внимания для генерации текстов на основе изображений.


Репозиторий: AttnGAN GitHub

Эти модели и инструменты являются свободно доступными и могут быть использованы для различных задач по описанию изображений. Вы можете скачать их с указанных репозиториев GitHub и настроить под свои нужды.


лучить описание заданного изображения. Язык описания может быть английским.
ссылка на ТЗ https://docs.google.com/document/d/1aweqsbEQpEj6O1...