Крупный металлургический холдинг обратился к Faskus с задачей модернизировать систему оперативного учёта производства (MES). Старая платформа не справлялась с пиками в начале и конце смен, теряла телеметрию с прокатных станов и блокировала отчётность на 20–40 минут. Мы спроектировали и внедрили highload-решение, которое обрабатывает до 42 000 событий в секунду и обеспечивает доступность 99,97% по итогам первых шести месяцев эксплуатации.
Исходная ситуация
На трёх производственных площадках холдинга работало более 2 800 цеховых терминалов, 640 промышленных контроллеров и десятки интеграций с ERP и системами лабораторного контроля. Монолитная MES на Oracle и самописных модулях был разработан ещё в 2010-х: при одновременном закрытии смен на двух заводах очередь сообщений росла экспоненциально, а операторы теряли актуальные данные о выпуске и браке.
Бизнес ставил жёсткие требования: переход без остановки производства, сохранение истории за 7 лет, соответствие 152-ФЗ и возможность масштабирования под новую линию холодной прокатки, запланированную на следующий год.
Архитектура решения
Мы спроектировали event-driven платформу на базе Apache Kafka как шины событий, PostgreSQL с логическим шардированием по площадкам и Redis для горячего кэша справочников и сменных заданий. Сервисы приёма телеметрии, нормализации, агрегации KPI и выдачи отчётов разнесены в отдельные микросервисы на Kubernetes — это позволило масштабировать только узкие места под нагрузку.
Критичные API вынесены за Kong Gateway с rate limiting и circuit breaker. Для аналитики в реальном времени развернули ClickHouse: дашборды диспетчерской обновляются с задержкой не более 3 секунд даже при пиковом потоке с прокатных станов.
Чтобы не останавливать производство, миграцию провели по схеме strangler pattern: новые участки и терминалы подключали к новой платформе поэтапно, параллельно шёл dual-write в legacy-систему до полного cutover на третьей площадке.
Нагрузочное тестирование и запуск
До промышленного запуска команда Faskus провела три цикла нагрузочных испытаний на стенде, воспроизводящем пик смены с коэффициентом 1,4. Целевой SLA — не более 200 мс на запись события и 99,9% успешных ответов API — был достигнут при 42 000 событий/сек.
Observability построена на связке Prometheus, Grafana и Jaeger: инженеры заказчика видят SLO по каждому сервису, а дежурная команда Faskus получает алерты в Telegram и Service Desk за 15 минут до деградации по прогнозным метрикам.
Результаты для заказчика
После полного перехода время формирования сменного отчёта сократилось с 35 минут до 4 минут. Потери телеметрии при пиках смены сведены к нулю за полгода эксплуатации. Руководство получило единую витрину KPI по всем площадкам без ручной сводки в Excel.
Платформа готова к подключению новой линии холодной прокатки: достаточно добавить шард и группу consumer-сервисов без изменения прикладной логики. Для холдинга это означает предсказуемые сроки и бюджет масштабирования.
Компетенции Faskus в Highload
Проект подтвердил наш подход: сначала архитектура и метрики нагрузки, затем код. Мы берём на себя полный цикл — аудит, проектирование, разработку, нагрузочное тестирование, ввод в эксплуатацию и сопровождение 24/7.
Если вашему производству или IT-ландшафту нужна платформа, которая выдержит рост без «узкого горлышка» в часы пик, обсудим задачу на консультации. Направление Highload-решений — одна из ключевых компетенций Faskus наряду с разработкой ПО и IT-интеграцией.
Нужна консультация по highload или разработке ПО под вашу задачу?
Обсудить проект