Разработка ПО для автоматизированного анализа тональности текста

15 000 руб. за проект
31 января 2025, 13:21 • 7 откликов • 37 просмотров
Техническое задание на разработку программного обеспечения для автоматизированного анализа текстовых данных
!!!Проект учебный!!!

1. Введение Целью разработки является создание программного обеспечения для автоматизированного анализа текстовых данных, включающего классификацию текстов и определение их тональности с применением методов машинного обучения и нейросетевых моделей.

2. Основания для разработки Разработка актуальна в связи с необходимостью эффективной обработки больших массивов текстовой информации, что важно для анализа пользовательских отзывов, мониторинга социальных сетей и управления репутацией. Использование современных методов NLP и машинного обучения повысит точность классификации и определения тональности текстов.

3. Цели и задачи проекта 3.1. Цель: Создание системы, обеспечивающей высокоточную и быструю обработку текстовых данных.

3.2. Задачи:

  • Анализ существующих методов классификации и определения тональности.
  • Разработка и тестирование моделей машинного обучения (SVM, LSTM, BERT и др.).
  • Реализация предобработки текста (токенизация, лемматизация, удаление стоп-слов).
  • Разработка интерфейса пользователя для удобного ввода и обработки данных.
  • Внедрение механизма многокритериальной оптимизации.
  • Разработка системы визуализации результатов анализа.
4. Функциональные требования 4.1. Входные данные:

  • Текстовые данные (отзывы, публикации, статьи, сообщения).
  • Датасеты для обучения и тестирования моделей (IMDb, Yelp, SST и др.).
4.2. Функции системы:

  • Автоматическая классификация текстов по категориям (положительный, нейтральный, отрицательный тон).
  • Анализ тональности с учетом контекста.
  • Возможность загрузки текстов для пакетной обработки.
  • Визуализация результатов анализа в виде графиков и гистограмм.
  • Настройки для выбора модели анализа (SVM, BERT и др.).
4.3. Выходные данные:

  • Классификация текста (тональность).
  • Графики распределения результатов.
  • Отчеты о точности модели (Accuracy, Precision, Recall, F1-score).
5. Нефункциональные требования

  • Высокая точность предсказаний (>70% для современных моделей NLP).
  • Производительность: обработка текста до 1 секунды.
  • Возможность интеграции с API.
6. Технологический стек

  • Язык программирования: Python.
  • Фреймворки и библиотеки: Scikit-learn, TensorFlow, PyTorch, Hugging Face Transformers.
  • NLP-инструменты: NLTK, SpaCy, Pandas.
  • Визуализация: Matplotlib, Seaborn.
  • Интерфейс: Streamlit.
  • База данных: SQLite, CSV.
7. Разработка и тестирование

  • Разработка модуля предобработки текста.
  • Обучение и дообучение моделей на размеченных датасетах.
  • Разработка веб-интерфейса с возможностью анализа пользовательского текста.
  • Тестирование производительности и точности модели.
8. Ожидаемые результаты

  • Создано программное обеспечение для анализа текстовых данных.
  • Реализована поддержка нескольких моделей классификации.
  • Достигнута >70 точность предсказаний.
  • Обеспечена возможность визуализации результатов анализа.
9. Заключение Разработка данного программного обеспечения позволит автоматизировать анализ текстов, повысить скорость и точность обработки данных и упростить применение методов NLP в различных сферах деятельности.



Файлы