Задача для DevOps специалиста: улучшение отказоустойчивости и оптимизация инфраструктуры

Цена договорная
25 декабря 2024, 15:50 • 6 откликов • 51 просмотр
Hi there,)

Нам требуется DevOps специалист с опытом для выполнения комплекса задач, направленных на повышение отказоустойчивости и улучшение текущей инфраструктуры.

О проекте и архитектуре:
• Есть staging и production среды, каждая состоит из двух VPS серверов.
• Используем Docker Swarm (manager- и worker-ноды). Kubernetes показался избыточным по стоимости, Docker Compose — недостаточным. Поэтому выбрали Docker Swarm для разнесения сервисов и репликации.
• Все сервисы работают в Docker, кроме MySQL, который установлен на менеджер-ноде. MySQL настроен без репликации.
• Бэкапы и статичные файлы хранятся в S3.
• Логи приложений собираются через Loki и просматриваются в Grafana. Логи серверов собираются с Prometheus, но конфигурация требует доработки.
• CI/CD реализован через GitLab (docker login и деплой).

Что нужно сделать:
1. Миграция и настройка облака:
• Сейчас хостимся на Yandex.Cloud (часто бывают проблемы с зоной ru-central-a).
• Нужен перенос на другого облачного провайдера (менее дорогого и стабильного).
• Настройка быстрого переключения трафика и развёртывания ресурсов на случай отказа.
2. MySQL:
• Настроить репликацию и повысить отказоустойчивость.
• Оптимизировать настройки, чтобы избежать подвисаний системы из-за сложных запросов.
3. Логи и мониторинг:
• Организовать сбор логов с понятной структурой.
• Настроить алерты (повышенная нагрузка, заполнение места, ошибки сервисов и т.д.).
4. Docker-сервисы:
• Добавить супервизоры и healthcheck для мониторинга и перезапуска упавших сервисов.
5. Консультации по Redis и RabbitMQ:
• Бэкапы, работа в Docker, рекомендации по настройке.

Вместе с вашим сопроводительным письмом указывайте и ваш телеграмм Айди, для оперативной связи.