Highload MES для металлургического комбината: 42 000 событий в секунду без простоя

08 июня 2025HighloadMESПромышленностьKafkaKubernetes

Крупный металлургический холдинг обратился к Faskus с задачей модернизировать систему оперативного учёта производства (MES). Старая платформа не справлялась с пиками в начале и конце смен, теряла телеметрию с прокатных станов и блокировала отчётность на 20–40 минут. Мы спроектировали и внедрили highload-решение, которое обрабатывает до 42 000 событий в секунду и обеспечивает доступность 99,97% по итогам первых шести месяцев эксплуатации.

Исходная ситуация

На трёх производственных площадках холдинга работало более 2 800 цеховых терминалов, 640 промышленных контроллеров и десятки интеграций с ERP и системами лабораторного контроля. Монолитная MES на Oracle и самописных модулях был разработан ещё в 2010-х: при одновременном закрытии смен на двух заводах очередь сообщений росла экспоненциально, а операторы теряли актуальные данные о выпуске и браке.

Бизнес ставил жёсткие требования: переход без остановки производства, сохранение истории за 7 лет, соответствие 152-ФЗ и возможность масштабирования под новую линию холодной прокатки, запланированную на следующий год.

Архитектура решения

Мы спроектировали event-driven платформу на базе Apache Kafka как шины событий, PostgreSQL с логическим шардированием по площадкам и Redis для горячего кэша справочников и сменных заданий. Сервисы приёма телеметрии, нормализации, агрегации KPI и выдачи отчётов разнесены в отдельные микросервисы на Kubernetes — это позволило масштабировать только узкие места под нагрузку.

Критичные API вынесены за Kong Gateway с rate limiting и circuit breaker. Для аналитики в реальном времени развернули ClickHouse: дашборды диспетчерской обновляются с задержкой не более 3 секунд даже при пиковом потоке с прокатных станов.

Чтобы не останавливать производство, миграцию провели по схеме strangler pattern: новые участки и терминалы подключали к новой платформе поэтапно, параллельно шёл dual-write в legacy-систему до полного cutover на третьей площадке.

Нагрузочное тестирование и запуск

До промышленного запуска команда Faskus провела три цикла нагрузочных испытаний на стенде, воспроизводящем пик смены с коэффициентом 1,4. Целевой SLA — не более 200 мс на запись события и 99,9% успешных ответов API — был достигнут при 42 000 событий/сек.

Observability построена на связке Prometheus, Grafana и Jaeger: инженеры заказчика видят SLO по каждому сервису, а дежурная команда Faskus получает алерты в Telegram и Service Desk за 15 минут до деградации по прогнозным метрикам.

Результаты для заказчика

После полного перехода время формирования сменного отчёта сократилось с 35 минут до 4 минут. Потери телеметрии при пиках смены сведены к нулю за полгода эксплуатации. Руководство получило единую витрину KPI по всем площадкам без ручной сводки в Excel.

Платформа готова к подключению новой линии холодной прокатки: достаточно добавить шард и группу consumer-сервисов без изменения прикладной логики. Для холдинга это означает предсказуемые сроки и бюджет масштабирования.

Компетенции Faskus в Highload

Проект подтвердил наш подход: сначала архитектура и метрики нагрузки, затем код. Мы берём на себя полный цикл — аудит, проектирование, разработку, нагрузочное тестирование, ввод в эксплуатацию и сопровождение 24/7.

Если вашему производству или IT-ландшафту нужна платформа, которая выдержит рост без «узкого горлышка» в часы пик, обсудим задачу на консультации. Направление Highload-решений — одна из ключевых компетенций Faskus наряду с разработкой ПО и IT-интеграцией.

Нужна консультация по highload или разработке ПО под вашу задачу?

Обсудить проект