Задача для DevOps специалиста: улучшение отказоустойчивости и оптимизация инфраструктуры

Hi there,)

Нам требуется DevOps специалист с опытом для выполнения комплекса задач, направленных на повышение отказоустойчивости и улучшение текущей инфраструктуры.

О проекте и архитектуре: • Есть staging и production среды, каждая состоит из двух VPS серверов. • Используем Docker Swarm (manager- и worker-ноды). Kubernetes показался избыточным по стоимости, Docker Compose — недостаточным. Поэтому выбрали Docker Swarm для разнесения сервисов и репликации. • Все сервисы работают в Docker, кроме MySQL, который установлен на менеджер-ноде. MySQL настроен без репликации. • Бэкапы и статичные файлы хранятся в S3. • Логи приложений собираются через Loki и просматриваются в Grafana. Логи серверов собираются с Prometheus, но конфигурация требует доработки. • CI/CD реализован через GitLab (docker login и деплой).

Что нужно сделать: 1. Миграция и настройка облака: • Сейчас хостимся на Yandex.Cloud (часто бывают проблемы с зоной ru-central-a). • Нужен перенос на другого облачного провайдера (менее дорогого и стабильного). • Настройка быстрого переключения трафика и развёртывания ресурсов на случай отказа. 2. MySQL: • Настроить репликацию и повысить отказоустойчивость. • Оптимизировать настройки, чтобы избежать подвисаний системы из-за сложных запросов. 3. Логи и мониторинг: • Организовать сбор логов с понятной структурой. • Настроить алерты (повышенная нагрузка, заполнение места, ошибки сервисов и т.д.). 4. Docker-сервисы: • Добавить супервизоры и healthcheck для мониторинга и перезапуска упавших сервисов. 5. Консультации по Redis и RabbitMQ: • Бэкапы, работа в Docker, рекомендации по настройке.

Вместе с вашим сопроводительным письмом указывайте и ваш телеграмм Айди, для оперативной связи.

Читайте на 123ru.net