25 ноября 2025 года провели по системе «Умный мониторинг», ред. 1.2., где рассказали, как с помощью продукта автоматизировать процесс наблюдаемости за ИТ-инфраструктурой и приложениями любой организации. На вебинаре прозвучали десятки интересных технических вопросов. Продуктовая команда в лице руководителя Андрея Казакова, архитектора Андрея Паклина и инженеров по внедрению Артема Журихина и Вячеслава Дорофеева подготовила подробные ответы, которые для удобства мы собрали в этой статье.
Вопрос: Какой движок ИИ вы используете?
Ответ: В основе «» лежит собственная нейросетевая модель, разработанная на Python. Мы не используем сторонние движки или open-source продукты, требующие дополнительного внедрения и согласования. Наши сервисы, являющиеся полноценными и самодостаточными бинарными модулями, не требуют установки дополнительного программного обеспечения
Ответ: В основе «» лежит собственная нейросетевая модель, разработанная на Python. Мы не используем сторонние движки или open-source продукты, требующие дополнительного внедрения и согласования. Наши сервисы, являющиеся полноценными и самодостаточными бинарными модулями, не требуют установки дополнительного программного обеспечения
Вопрос: Как в «Умном мониторинге» обучать ИИ на примере блокировок?
Ответ: Процесс зависит от того, какую задачу должен решает ИИ: прогнозирование или анализ первопричин. Если говорить о прогнозировании (Prediction Service), в этом случае сначала нужно настроить сбор метрик, характеризующих блокировки. Источник данных зависит от системы: для 1С это может быть DBMS_Monitor (СУБД монитор), для Postgres – OpenTelemetry, а для технологического журнала 1С (ТЖ) потребуется преобразовать записи событий TLOCK в метрики.
Ответ: Процесс зависит от того, какую задачу должен решает ИИ: прогнозирование или анализ первопричин. Если говорить о прогнозировании (Prediction Service), в этом случае сначала нужно настроить сбор метрик, характеризующих блокировки. Источник данных зависит от системы: для 1С это может быть DBMS_Monitor (СУБД монитор), для Postgres – OpenTelemetry, а для технологического журнала 1С (ТЖ) потребуется преобразовать записи событий TLOCK в метрики.
Что касается анализа первопричин (Root Cause Analysis, RCA), необходимо настроить оповещение (алерт) на метрику, связанную с длительными блокировками. Например, когда время установки блокировки превышает 20 секунд. При срабатывании этого алерта автоматически будет создан инцидент, который запустит процедуру анализа первопричин для выявления корневой проблемы, в том числе по метрикам событий TLOCK настроенного ранее монитора. Таким образом, обучение ИИ в данном контексте – это не классическая тренировка модели на датасете (dataset), а настройка системы на сбор и анализ релевантных данных, которые алгоритмы ИИ будут использовать для последующей работы. В целом, ответ на этот вопрос шире, мы подробнее расскажем об этом в отдельной статье
Вопрос: Как обучать ИИ, если через веб-сервис предоставить возможность управлять количеством потоков механизмов?
Ответ: Обучение ИИ для управления потоками состоит из двух ключевых частей. Первое – это сбор данных для обучения. Как уже упоминалось выше, ИИ обучается на данных. В этом случае необходимо собирать метрики производительности системы (например, загрузку процессора, использование памяти, время отклика) и соотносить их с разным количеством рабочих потоков. Эти данные служат основой для обучения модели. Второе – это применение анализа для настройки. Если речь идет о расследовании проблем (например, вы заметили аномальный рост числа потоков и хотите понять причину, чтобы устранить её), то получая данные из RCA можно скорректировать логику и данные для обучения ИИ. Это позволит принимать оптимальные решения по управлению потоками
Ответ: Обучение ИИ для управления потоками состоит из двух ключевых частей. Первое – это сбор данных для обучения. Как уже упоминалось выше, ИИ обучается на данных. В этом случае необходимо собирать метрики производительности системы (например, загрузку процессора, использование памяти, время отклика) и соотносить их с разным количеством рабочих потоков. Эти данные служат основой для обучения модели. Второе – это применение анализа для настройки. Если речь идет о расследовании проблем (например, вы заметили аномальный рост числа потоков и хотите понять причину, чтобы устранить её), то получая данные из RCA можно скорректировать логику и данные для обучения ИИ. Это позволит принимать оптимальные решения по управлению потоками
Вопрос: Как ИИ будет оценивать флуктуации типа периода закрытия месяца и повышенной нагрузки при расчетах себестоимости?
Ответ: Для плановых мероприятий с заранее известными датами (закрытие месяца, пересчет себестоимости и пр.), мы настраиваем систему так, чтобы в эти периоды не формировались уведомления о высокой нагрузке или аномальной активности. Такое поведение считается ожидаемым, поэтому механизмы мониторинга на это время условно «отключаются». При необходимости в период технических работ всегда можно настроить отдельные алерты под конкретные задачи
Ответ: Для плановых мероприятий с заранее известными датами (закрытие месяца, пересчет себестоимости и пр.), мы настраиваем систему так, чтобы в эти периоды не формировались уведомления о высокой нагрузке или аномальной активности. Такое поведение считается ожидаемым, поэтому механизмы мониторинга на это время условно «отключаются». При необходимости в период технических работ всегда можно настроить отдельные алерты под конкретные задачи
Вопрос: Какой стек в качестве хранения метрик используется?
Ответ: Для хранения метрик в «Умном мониторинге» используется PostgreSQL с расширением TimescaleDB. Поддерживаются версии PostgreSQL начиная с 13-й, и TimescaleDB 2.2.1 и более новые
Ответ: Для хранения метрик в «Умном мониторинге» используется PostgreSQL с расширением TimescaleDB. Поддерживаются версии PostgreSQL начиная с 13-й, и TimescaleDB 2.2.1 и более новые
Вопрос: Насколько полноценный мониторинг агента для Linux относительно Windows?
Ответ: Уровень мониторинга агентов для Linux и Windows является одинаково полноценным, т.е. для обеих операционных систем реализован полный набор функциональности по сбору системных метрик производительности, надежности и другим системным метрикам. Единственное отличие заключается не в полноте, а в специфике собираемых данных, т.к. ОС имеют разную архитектуру и набор параметров, и мониторинг, соответственно, адаптируется под каждую из них
Ответ: Уровень мониторинга агентов для Linux и Windows является одинаково полноценным, т.е. для обеих операционных систем реализован полный набор функциональности по сбору системных метрик производительности, надежности и другим системным метрикам. Единственное отличие заключается не в полноте, а в специфике собираемых данных, т.к. ОС имеют разную архитектуру и набор параметров, и мониторинг, соответственно, адаптируется под каждую из них
Вопрос: Насколько мониторинг адаптирован для кластеров PG, например мастер + реплика или кластер Patroni на 3 сервера, т.е., есть ли анализ из коробки проблем межсерверного взаимодействия?
Ответ: Система мониторинга полностью адаптирована для анализа кластерных конфигураций, включая проблемы межсерверного взаимодействия. В настоящее время в продукте есть как мониторинг на уровне узлов – система собирает метрики с каждой ноды (мастера и реплик) индивидуально. Так и анализ первопричин (RCA), который запускается автоматически при возникновении инцидента. Поскольку ноды кластера Patroni связаны между собой, RCA коррелирует события и метрики со всех узлов и наглядно показывает, как проблема на одном сервере повлияла на другие, выявляя корень проблемы в их взаимодействии. Кроме того, в одном из следующих релизов мы планируем добавить готовые шаблоны мониторинга для Patroni и аналогичных кластеров. Это позволит настраивать комплексный контроль за всем кластером «из коробки», еще больше упростив процесс
Ответ: Система мониторинга полностью адаптирована для анализа кластерных конфигураций, включая проблемы межсерверного взаимодействия. В настоящее время в продукте есть как мониторинг на уровне узлов – система собирает метрики с каждой ноды (мастера и реплик) индивидуально. Так и анализ первопричин (RCA), который запускается автоматически при возникновении инцидента. Поскольку ноды кластера Patroni связаны между собой, RCA коррелирует события и метрики со всех узлов и наглядно показывает, как проблема на одном сервере повлияла на другие, выявляя корень проблемы в их взаимодействии. Кроме того, в одном из следующих релизов мы планируем добавить готовые шаблоны мониторинга для Patroni и аналогичных кластеров. Это позволит настраивать комплексный контроль за всем кластером «из коробки», еще больше упростив процесс
Вопрос: Есть ли шаблоны метрик для «1С:Интеграция КОРП», включая компоненты транспортного слоя? Если есть, то какие метрики в них реализованы?
Ответ: Да, готовый шаблон мониторинга для «» входит в стандартную поставку системы. Базовый набор метрик в шаблоне включает данные по потреблению оперативной памяти, CPU, количество отправленных сообщений, как с ошибками, так и без. При необходимости шаблон можно расширить и донастроить, добавив сбор дополнительных метрик по конкретным контекстам или бизнес-процессам
Ответ: Да, готовый шаблон мониторинга для «» входит в стандартную поставку системы. Базовый набор метрик в шаблоне включает данные по потреблению оперативной памяти, CPU, количество отправленных сообщений, как с ошибками, так и без. При необходимости шаблон можно расширить и донастроить, добавив сбор дополнительных метрик по конкретным контекстам или бизнес-процессам
Вопрос: Что касается «протухания» статистик по конкретным таблицам, когда запрос, который работал раньше меньше секунды, начинает работать десяти минут. Такой анализ и сценарий поведения доступен уже в продукте?
Ответ: Да, доступен. Как раз при использовании RCA можно увидеть отклонение метрики по времени выполнения запроса
Ответ: Да, доступен. Как раз при использовании RCA можно увидеть отклонение метрики по времени выполнения запроса
Вопрос: Как рассчитать мощность главного сервера? Скажем, на 100 хостов?
Ответ: У нас есть стандартные требования к сайзингу: 8 CPU 64 RAM. Этого достаточно, чтобы выдерживать нагрузку до 1500 хостов
Ответ: У нас есть стандартные требования к сайзингу: 8 CPU 64 RAM. Этого достаточно, чтобы выдерживать нагрузку до 1500 хостов
Вопрос: Есть ли какой-то общий сервис с накопленными данными от других ваших клиентов?
Ответ: Это исключено в рамках соглашений о конфиденциальности (NDA), которые мы заключаем с каждым заказчиком. Однако мы активно используем накопленный вместе с клиентами и партнерами опыт в области методологии и лучших практик. Например, стандартные дашборды «Умного мониторинга», которые поставляются «из коробки», были разработаны благодаря обобщенному опыту совместной работы. Мы предоставляем только дистрибутивы без каких-либо чувствительных данных. Таким образом, все ваши данные и результаты работы моделей остаются в вашем защищенном контуре, и вы не можете получить доступ к данным других организаций, как и они – к вашим
Ответ: Это исключено в рамках соглашений о конфиденциальности (NDA), которые мы заключаем с каждым заказчиком. Однако мы активно используем накопленный вместе с клиентами и партнерами опыт в области методологии и лучших практик. Например, стандартные дашборды «Умного мониторинга», которые поставляются «из коробки», были разработаны благодаря обобщенному опыту совместной работы. Мы предоставляем только дистрибутивы без каких-либо чувствительных данных. Таким образом, все ваши данные и результаты работы моделей остаются в вашем защищенном контуре, и вы не можете получить доступ к данным других организаций, как и они – к вашим
Вопрос: Есть ли возможность использовать базу ошибок с багборда (например, из 1С) для выстраивания взаимосвязей с ошибками платформы или прикладного уровня?
Ответ: В будущих релизах мы рассматриваем варианты реализации универсальной системы базы знаний. При этом, мы учитываем в планируемой реализации возможность, описанную выше. Сейчас можно использовать базу багборда вручную. Для этого требуется написать скрипт, который будет загружать данные об ошибках в классификатор. Тогда при раскрытии исключения в технологическом журнале будет показываться не только ошибка, но и прикрепленный способ её исправления из вашей базы
Ответ: В будущих релизах мы рассматриваем варианты реализации универсальной системы базы знаний. При этом, мы учитываем в планируемой реализации возможность, описанную выше. Сейчас можно использовать базу багборда вручную. Для этого требуется написать скрипт, который будет загружать данные об ошибках в классификатор. Тогда при раскрытии исключения в технологическом журнале будет показываться не только ошибка, но и прикрепленный способ её исправления из вашей базы
Вопрос: Был ли опыт использования на 1С:Fresh? Когда нагрузка в областях разноплановая и фактически APDEX малоинформативен
Ответ: Наш продукт позволяет мониторить системы и ИТ-активы любой сложности. В том числе, с помощью «Умного мониторинга» можно получать данные из платформенных инструментов: Журнала Регистрации 1С и Технологического Журнала 1С. При необходимости доступна дополнительная настройка сбора данных по длительным вызовам в СУБД и подключение метрик веб-серверов, что обеспечивает полный контроль над поведением областей. Таким образом, даже не имея готовых кейсов по мониторингу какого-то решения, мы можем с уверенностью сказать, что проблем с постановкой на мониторинг не возникнет
Ответ: Наш продукт позволяет мониторить системы и ИТ-активы любой сложности. В том числе, с помощью «Умного мониторинга» можно получать данные из платформенных инструментов: Журнала Регистрации 1С и Технологического Журнала 1С. При необходимости доступна дополнительная настройка сбора данных по длительным вызовам в СУБД и подключение метрик веб-серверов, что обеспечивает полный контроль над поведением областей. Таким образом, даже не имея готовых кейсов по мониторингу какого-то решения, мы можем с уверенностью сказать, что проблем с постановкой на мониторинг не возникнет
Вопрос: Верно ли, что основный сценарий использования продукта это агентный сбор метрик параллельно существующим решениям (например, Zabbix или Prometheus)?
Ответ: Да, вы можете настроить параллельный сбор метрик с одной конфигурационной единицы силами других систем мониторинга, в том числе, агентами Zabbix или Prometheus. Мы поддерживаем такие сценарии, но не считаем их основными – все зависит от потребностей бизнеса и особенностей ИТ-ландшафта. Это позволяет интегрировать унаследованные системы мониторинга без лишней работы. Основной сценарий использования продукта — это единая точка контроля ИТ-ландшафта, включая уведомления о событиях и их расследования
Ответ: Да, вы можете настроить параллельный сбор метрик с одной конфигурационной единицы силами других систем мониторинга, в том числе, агентами Zabbix или Prometheus. Мы поддерживаем такие сценарии, но не считаем их основными – все зависит от потребностей бизнеса и особенностей ИТ-ландшафта. Это позволяет интегрировать унаследованные системы мониторинга без лишней работы. Основной сценарий использования продукта — это единая точка контроля ИТ-ландшафта, включая уведомления о событиях и их расследования
Вопрос: Я правильно понимаю, что через веб-сервисы можно «затащить» прикладную логику в метрики?
Ответ: Верно, с помощью веб-сервиса вы можете получать некий контекст кода, превратить его в универсальные логи, а затем эти универсальные логи уже преобразовать в метрики с помощью специализированных функций в продукте. Как именно это можно реализовать расскажем и покажем дополнительно в понятной статье
Ответ: Верно, с помощью веб-сервиса вы можете получать некий контекст кода, превратить его в универсальные логи, а затем эти универсальные логи уже преобразовать в метрики с помощью специализированных функций в продукте. Как именно это можно реализовать расскажем и покажем дополнительно в понятной статье
Вопрос: Обязательно затроньте вопрос стоимости!
Ответ: Стоимость «Умного мониторинга» формируется исходя из нескольких факторов, которые напрямую влияют на его эффективность для вашего бизнеса:
Ответ: Стоимость «Умного мониторинга» формируется исходя из нескольких факторов, которые напрямую влияют на его эффективность для вашего бизнеса:
- количество объектов, который необходимо поставить на мониторинг
- способ исполнения решения – отказоустойчивый / standalone
- уровень поддержки – базовая / расширенная / премиальная.
Для точного расчета предложения нам нужно понять объем задач и учесть особенности вашей IT-инфраструктуры – напишите нам на почту , чтобы обсудить всё детально.