业务服务智能监测与 AIOps 平台
从业务视角看清服务健康、故障影响和异常根因
将服务器、网络、存储、数据库、中间件,应用、动环和业务系统关联起来,帮助企业减少告警噪音,提升故障定位效率,保障业务连续性。
业务中断前,需要更早看清影响
传统监控工具通常按资源类型展示告警。服务器有服务器告警,网络有网络告警,数据库有数据库告警。运维团队看到很多告警,却不一定能快速判断哪个告警最重要、影响哪个业务、根因可能在哪里。
告警多,重点不清、影响范围不明
从"看告警"走向"看业务影响"
SmartBSM 主要解决什么问题
告警太多,重点不清
多系统、多资源同时告警,运维团队难以判断优先级和真实影响
业务影响不可见
设备、网络、数据库或中间件异常后,难以快速判断影响哪些业务系统
根因定位慢
运维人员需要跨多个系统排查,依赖经验判断,处理时间长
资源关系不清晰
应用、主机、数据库、存储、网络和业务服务之间缺少统一拓扑
监控数据与业务脱节
基础设施指标很多,但无法直接说明业务服务是否健康
智能分析能力不足
缺少告警关联、异常识别、影响分析和风险预测能力
从资源监控走向业务服务监测
SmartBSM 可以围绕业务系统建立服务视图,将应用、服务器、数据库、中间件、网络、存储和环境设备关联到同一个业务服务中。运维团队可以通过业务健康视图了解核心业务是否正常,哪些资源存在风险,哪些异常可能影响服务可用性。
- 围绕业务系统建立服务视图
- 实时了解核心业务是否正常
- 识别哪些资源存在风险
- 让管理层和运维团队用同一套语言理解 IT 状态

业务自动生成拓扑
SmartBSM 支持业务拓扑和资源关系视图,帮助企业看清业务系统与底层资源之间的关联。当异常发生时,平台可以辅助判断影响范围,帮助运维团队更快识别受影响业务、相关资源和上下游依赖。
- 应用拓扑、服务拓扑、资源关系拓扑
- 上下游依赖关系可视化
- 异常时辅助判断影响范围
- 支撑故障定位、变更评估和服务治理

告警关联与智能降噪
在大型数据中心中,一个故障常常会触发多条告警。SmartBSM 可以对告警进行关联分析,将同一事件链路上的告警进行归并和排序,帮助运维团队优先关注真正影响业务的异常。
- 告警关联与归并排序
- 告警降噪,减少重复通知
- 告警优先级识别
- 降低告警疲劳,让关键问题更早被发现

根因分析与故障定位
故障定位慢,通常不是因为没有数据,而是因为数据分散在太多系统中。SmartBSM 通过业务拓扑、资源关系、告警关联和历史数据,辅助运维团队进行根因分析,判断问题可能来自基础设施、网络、数据库还是中间件。
- 基于拓扑关系和告警关联
- 判断问题来源:基础设施 / 网络 / 数据库 / 中间件
- 减少盲目排查和跨系统切换
- 提高故障处理效率

AIOps 智能分析能力建设
AIOps 的价值不在于堆叠算法,而在于帮助运维团队更快发现异常、更准判断影响、更高效定位原因。SmartBSM 将告警、指标、拓扑、资源关系、业务服务和历史事件结合起来,为智能分析提供基础。
- 异常检测与风险预测
- 告警关联与根因辅助
- 智能助手与处置建议
- 知识库关联与运营分析报表

五大核心能力,构建业务服务监测体系
业务服务监测
业务拓扑
告警智能分析
根因分析
智能运维
与 DCOS、iDCOS 的协同关系
三个产品覆盖从硬件层到业务层的完整运维链路,DCOS 提供底层数据,iDCOS 承接流程管理,SmartBSM 面向业务分析。
DCOS
硬件层数据
iDCOS
管理层数据
SmartBSM
业务层分析
覆盖多种业务服务保障场景
核心业务系统健康监测
适用于银行、证券、医院、政企、运营商和大型企业的核心系统,以业务服务为中心展示健康状态。
告警降噪与优先级识别
适用于告警数量大、重复告警多、派生告警多的企业,归并相关告警,优先处理关键问题。
故障根因定位
适用于故障排查依赖人工经验、跨系统查找耗时长的企业,基于拓扑关系辅助定位异常来源。
业务影响分析
适用于需要快速判断故障影响范围的企业,当服务器、网络、存储等异常时判断受影响业务。
重大活动保障
适用于交易高峰、节假日、发布上线、考试报名、医院保障等场景,集中监测重点业务服务状态。
智算业务服务保障
适用于 AI 算力服务、云手机、云游戏和 GPU 资源池场景,将算力基础设施与业务服务健康关联。
从业务视角看清 IT 风险
SmartBSM帮助企业把运维视角从资源层提升到业务层,减少无效告警干扰,更快判断故障优先级,更准确定位异常来源,让不同团队围绕业务服务进行统一协作。
