腾博tengbo9885官网故障画像平台是基于数据模子的面向IT智能运维领域的智能故障剖析平台。它针对以金融行业为代表的大中型数据中心的故障剖析场景,解决数据中心在重大架构下因素众多、剖析定位不准确、排障难题等问题,可实现运维数据转变时重大情形下的故障推理定位、故障影响剖析和多维度画像等功效,支持IT职员快速定位和处置惩罚系统问题,提高故障处置惩罚效率;同时,可团结自动化能力举行故障处置惩罚推荐和一键式抢修,大幅提升数据中心的故障排查效率和运营效率,降低运营本钱。
营业痛点
数据中心的大型化、高密化、集群化生长趋势让种种管理问题凸显,运维管理者纯粹依附基于人工履历的管理手段,面临重大的情形和海量的数据已显得无所适从。中国信通院《数据中心智能化运维生长研究报告(2023年)》显示,在故障场景告警速率方面,现在仅有不到20%的数据中心可以实现20秒内完成告警,有用降低运行危害。大型数据中心在故障运维管理方面的主要有以下痛点:
一是故障定位慢,人工数据网络和诊断重大,不可知足数据中心30分钟解决问题的要求。
二是故障难剖析,跨手艺领域(包括网络、系统、应用和动力情形等)的故障定位及影响难以剖析和确定。
三是缺乏一站式故障可视化工具,所有运维数据包括日志、告警、状态指标、流量剖析平疏散在各个平台,不可集中展示,同时缺乏从应用、系统、网络到数据中心全领域的故障拓扑。
四是故障抢修自动化水平不高,缺乏基于场景的一键式抢修工具。
腾博tengbo9885官网故障画像平台
腾博tengbo9885官网故障画像平台整体架构
腾博tengbo9885官网故障画像平台以CMDB(设置管理数据库)中设置模子为焦点,种种设置项对应的告警(包括应用、系统、网络、动力情形等)触发故障画像,并组织告警、指标、日志、流量、ITIL历程数据、自动化操作、人工操作等运维数据,形成跨应用、系统、网络、动力情形等多个手艺领域的实时的统一的运维数字模子(运维知识图谱)。运维数据模子是运维工具的360度画像、运维剖析的基础、运维知识系统的条件。
以数据库告警为例,在CMDB中,与该设置项相关的设置项及关系(关系包括数据库关联应用、应用关联生意、数据库安排于OS、OS运行于物理服务器等),组成了整个故障的完整画像。
平台提供多角度的拓扑模子展示,支持营业生意、应用、逻辑组件、物理装备等重大模子下的标签化画像功效。
故障定位
平台通过建设故障推理规则库,将专家履历设置到规则引擎,以统一运维数字模子中的种种数据和关系为参数,执行规则,实现故障定位。随着专家履历的一直增补和更新,故障定位也更快速、精准。同时,故障推理规则库中的历史故障画像定位结论,也为智能学习算法模子提供训练数据和测试数据,进而举行辅助定位。
故障追踪
故障追踪功效是在故障爆发后,剖析事务的生长趋势、故障状态,用于故障处置惩罚时代的信息交流,并最终形成故障爆发随处置惩罚完成时代的事务追踪纪录。例如:爆发生意超时后,剖析生意日志,是否继续爆发生意超时,并通过指标输出该事务是否一连增添;剖析网络、系统状态报告,应用层是否有异常,输出各情形是否影响生意;当超时不再爆发,团结生意日志、告警数据等推断故障是否恢复。
自动化工具箱
爆发故障时代,相关运维职员可通过工具箱快速执行自动化故障处置惩罚工具,如巡检工具和应急预先设定的剧本。
故障知识库
平台整合告警序列、故障、定位规则、事务单、问题单、变换单、自动化工具箱和计划等故障处置惩罚历程数据,形成故障知识库。在故障爆发后,故障知识库通过规则和算法推荐相关的处置惩罚建议。
腾博tengbo9885官网故障画像平台可以通过PC端、移动端举行故障可视化展示,还可以通过地图模式展示。
现在,腾博tengbo9885官网故障画像平台已经应用到某股份制商业银行,当故障爆发时资助运维职员快速找到故障泉源,快速实现跨领域故障定位,形成影响剖析,跟踪故障生长历程,直到完成故障处置惩罚修复。