AIOps时代,你准备好了吗?,aiops时代准备

AIOps时代,你准备好了吗?,aiops时代准备

作者简介

运小韩    百度高级研发工程师

负责百度运维部分布式任务调度系统、智能运维开发框架及可用性相关工作,在分布式系统、AIOps、可用性方向有广泛经验。

干货概览

在运小皮《百度自动化运维演进》文章中提到,2014年以来,百度运维开始向智能化方向迈进。智能运维时代,如何提高智能运维效率,降低通用运维操作(典型如故障场景)开发难度和成本,成为首要难题。本文将向大家介绍面向感知、决策、执行的百度智能运维工程化解决方案

背景介绍

故障处理操作变更是运维两大主题。在过去,为维护系统稳定,各业务线都投入大量人力进行故障处理工作,除直接人肉运维外,各产品线深度定制的运维工具、系统被研发出来。随着业务规模扩张和形态变迁,传统运维模式受到极大挑战:

  • 无统一的开发管理模式,运维服务开发及维护成本大,运维效率低。

  • 横向扩展能力差,运维经验难以复用,各产品线”重复造轮子”。

智能运维开发框架,提供了一种以软件工程方式解决运维问题的解决方案。通过提供统一的开发模型管理机制,支持不同产品线运维操作的设计、实现和管理。从而:

  • 降低设计、开发难度与成本,使业务OP专注自身的业务逻辑,提高开发和迭代效率。

  • 促进基于代码的跨产品线经验积累与分享,提升百度整体的业务运维能力。

  • 充分运用和发挥自动控制、机器学习、人工智能等领域的技术成果,提高运维效率。

解决思路

智能运维开发框架以Noah(百度自动化运维管理平台)时代的运维经验为基础,通过对运维概念和操作的统一,整合当前运维系统,提供运维操作的统一入口;让更多的业务线OP加入到运维社区建设中,共享运维经验,满足业务日益多样化的需要。

具体解决思路如下:

1运维模式标准化

  • 统一开发模式:提供统一的开发规范,社区化开发模式,业务线OP共同参与运维操作开发,沉淀运维经验。

  • 统一运维对象:通过知识库,统一描述机器、实例、服务、应用等运维对象的属性,聚集分散的运维状态数据,达到公司内运维对象的统一。

  • 统一运维操作:屏蔽具体平台操作实现,提供统一的运维对象操作接口。

2运维开发工程化

  • 提供统一的运维开发框架:封装常用功能组件,提供高扩展的开发框架,使产品线专注于自身业务逻辑,开发”智能运维机器人”。

  • 提供仿真系统:通过提供服务拓扑搭建及模拟故障的能力,完成机器人上线前功能验证,提高”机器人”可靠性。

  • 提供托管平台:通过提供高可用的机器人托管环境,降低服务运维成本。

3运维操作智能化

  • 智能感知:依赖监控系统提供的智能异常检测、多维度异常分析,感知满足时效性和准确度的异常事件。

  • 智能决策:自定义算法实现决策机制,充分利用机器学习、人工智能成果,提供决策可靠性。并沉淀人对问题的决策经验,做到经验可迁移。

  • 智能执行:提供丰富的执行策略,满足业务线通用运维操作的需求。

实现方案

整体解决方案如下:

智能运维机器人为主体,深度整合公司内代码管理工具,持续交付平台,部署系统等devops工具链,帮助产品线同学快速完成源码构建、镜像打包、应用部署,提供开发、测试、运维整套解决方案,大幅提升开发效率。

智能运维开发框架自身提供的功能如下:

智能运维开发框架提供了高扩展易使用的智能运维机器人开发框架,具备线上服务拓扑结构搭建和query级别异常模拟能力的仿真系统,具备单地域故障处理能力的高可用服务部署托管平台,完成开发至上线流程的全覆盖,用户只需要在智能运维开发框架基础上嵌入自己的业务代码,即可完成满足自身业务的运维操作。

总结

智能运维开发框架以变革运维模式为目标,提供了开发验证运维工程化解决方案。一经上线,便作为各类故障自愈、高可用架构项目的基础支撑,大幅提高了项目开发效率,减小了开发难度和成本,表现出了极强的稳定性。

相信在不久的将来,智能运维开发框架会成为百度运维操作的载体,不断达成智能运维的使命。

智能运维开发框架的具体实现最佳实践将在后续文章中详细介绍,敬请期待!

相关文章

百度自动化运维的演进(一):聊聊百度自动化运维

百度自动化运维的演进(二):百度自动化运维编年史

↓↓↓ 点击”阅读原文” 【查看更多信息】  

越过经验单谈技术能力,她认为AIOps厂商有3部分的能力必须建立,即大数据的采集和传输能力、“all
in one
agent”——以可靠高效的agent为载体的统一监控能力、数据的定义能力以及算法能力。朱品燕强调,智能运维的核心仍然在于数据而非算法,所以采集哪些大数据,这些数据将会如何贡献AIOps场景非常重要。

经验与技术促成LinkedSee灵犀

经验与技术实力是AIOps成功的关键。从经验上来讲,在巨大的行业机会下,客户渴望合作伙伴能够深谙互联网型业务、吃透云计算模式、有大规模的运维场景经验以及创新的技术能力。

越过经验单谈技术能力,她认为AIOps厂商有三部分的能力必须建立,即大数据的采集和传输能力、“all
in one
agent”——以可靠高效的Agent为载体的统一监控能力、数据的定义能力以及算法能力。朱品燕强调,智能运维的核心仍然在于数据而非算法,所以采集哪些大数据,这些数据将会如何贡献AIOps场景非常重要。

据了解,LinkedSee灵犀的创始团队来自于百度运维体系,是中国最早规模化落地AIOps的团队,有过长达10年的百度运维经验积累。LinkedSee灵犀创始团队曾参与的百度智能运维项目,集合了百度高级工程师和清华研究团队的合力,该项目落地用了长达一年半的时间。“可以说今天LinkedSee灵犀的愿景和市场重构需求之间产生了高度匹配,这是运维人难逢的时代机遇。”朱品燕谈道。

目前在LinkedSee灵犀,AIOps的行业场景落地主要在根因定位与趋势预测(包括故障预测、容量预测、流量预测、温度能耗预测等)两方面。LinkedSee灵犀的企业级产品针对客户所需的监控对象,会直接提供这两部分能力。

例如,LinkedSee灵犀服务器智能监控产品将提供针对服务器的故障监控、故障告警、故障定位、故障修复、故障预测、智能节能等多个功能模块,全程加速客户的故障处理过程,提高系统可靠性,大幅降低成本。据中国IDC圈了解,目前LinkedSee灵犀的产品部署方式大部分采用私有化部署,
以20万台的客户为例, 日处理数据在20TB左右。

3.算法落地挑战在一个客户一种场景的算法落地,都需要大量的调优过程,现实情况是每个客户每个行业的实际情况都有所不同,算法落地困难。

第十二届中国IDC产业年度大典将在12月20-22日在北京国家会议中心举办,LinkedSee灵犀创始人朱品燕接受了中国IDC圈的访问,此次谈话重点讲述了AIOps初创企业如何应对新时代下的机遇与挑战。

2.数据采集与应用挑战采集哪些数据才能够支撑智能运维落地,这需要强大的经验支撑,而且AIOps从业者的经验能力需要从业务层一直理解到基础硬件层,即便在BAT,这样的角色也是极其稀缺的;

2018年会是智能运维元年

“随着云计算对IT架构的重构以及互联网业务对大规模IT基础设施的需求,整个运维市场都面临着巨大机遇。”有着10年运维经验的朱品燕这样判断时下的运维市场。她认为,IT基础设施的高速增长将带动运维市场容量迅速增大。IT架构的重构也带来了颠覆性的机会,围绕新架构,一切的软件硬件形态以及运维理念都将是新的。

LinkedSee灵犀将AIOps定义为运维4.0,其从手工运维——半自动化运维——自动化运维演变而来,是运维界人士不断追求运维效率革命性提升的效果使然。朱品燕得出结论:“百度过去的运维演进便走过了这样一个阶段,我个人认为,2018年会是智能运维元年”。Gartner今年正式发布对未来运维的预测,结论是2021年50%的全球企业的运维系统会切换成AIOps。

当然,AIOps机遇的来临也伴随着一些挑战,朱品燕指出了三点:

1、混合IT带来的挑战

客户复杂的历史情况导致了混合IT受到青睐,在这个现状下,管理对象复杂、数据孤岛效应明显、要统一完成数据的采集和清洗不容易。

2、数据采集与应用挑战

采集哪些数据才能够支撑智能运维落地,这需要强大的经验支撑,而且AIOps从业者的经验能力需要从业务层一直理解到基础硬件层,即便在BAT,这样的角色也是极其稀缺的。

3、算法落地挑战

在一个客户一种场景的算法落地,都需要大量的调优过程,现实是每个客户,每个行业的实际情况都有所不同,算法落地困难。

朱品燕表示,LinkedSee灵犀将运用自身的经验与业界伙伴一起逐步解决上述问题。

目前在LinkedSee灵犀,AIOps的行业场景落地主要在根因定位与趋势预测(包括故障预测,容量预测,流量预测,温度能耗预测等)两方面。LinkedSee灵犀的企业级产品针对客户所需的监控对象,会直接提供这两部分能力。

近年来,人工智能正在从最初的概念泡沫变成随处而见的落地场景,AIOps(智能运维)就是在这样的趋势下,成为运维界不断追求的目标。脱胎于百度运维体系,成立于2015年的LinkedSee灵犀就是带着AIOps
的使命,逐渐进入了人们的视野。

2018年会是智能运维元年

与云巨头竞争还是合作?

云计算的发展,也伴随着互联网云服务商对云计算相关领土的“侵占”。从IaaS到PaaS,再到SaaS,甚至我们也看到互联网云服务商在CDN上的疯狂降价对传统CDN厂商造成的近似致命的掠夺。

“会不会有一天,AIOps也成为了他们的眼中的猎物?”

“我们更有可能成为他们的合作伙伴”。

朱品燕认为,5年内,中国云计算企业级的头部客户仍然会首选私有云和混合云架构,并且客户长期处于混合IT状态。这就要求客户需要一个第三方跨平台的运维产品帮助其提升运维效率。一方面,从身份来说,云厂商不是客户的首选。另一方面,从客户的数据安全考虑来说,云厂商和第三方运维厂商独立存在是理想布局。

“我们也认为,今天中国的云厂商仍然还应着力于完成帮助企业上云,LinkedSee灵犀作为云后管理平台是云生态的一部分,会是其最佳的合作伙伴。”朱品燕表示。

目前,
作为国内最早的AIOps市场的创业公司,LinkedSee灵犀处在市场的培育和开拓阶段。在主导行业市场的标准制定和教育市场的阶段,LinkedSee灵犀希望和更多的厂商一起为AIOps智能运维市场的发展作出贡献。

“LinkedSee灵犀会始终聚焦在AIOps市场,围绕着智能监控这一产品线不断完善功能,丰富场景。”朱品燕强调,LinkedSee灵犀在不断地探索从传统的体检式运维向基因预测式运维的实践,“统一、完整、闭环、智能”这四大特性的新监控理念会一直传承下去。

1.混合IT带来的挑战客户复杂的历史情况导致了混合IT受到青睐,在这个现状下,管理对象复杂、数据孤岛效应明显,要统一完成数据的采集和清洗不容易;

云计算的发展,也伴随着互联网云服务商对云计算相关领土的“侵占”。从IaaS到PaaS,再到SaaS,甚至我们也看到互联网云服务商在CDN上的疯狂降价对传统CDN厂商造成的近似致命的掠夺。

目前, 作为国内最早的AIOps市场的创业公司,LinkedSee灵犀处在市场的培育和开拓阶段。在主导行业市场的标准制定和教育市场的阶段,LinkedSee灵犀希望和更多的厂商一起为AIOps智能运维市场的发展作出贡献。

据了解,LinkedSee灵犀的创始团队来自于百度运维体系,是中国最早规模化落地AIOps的团队,有过长达10年的百度运维经验积累。LinkedSee灵犀创始团队曾参与的百度智能运维项目,集合了百度高级工程师和清华研究团队的合力,该项目落地用了长达一年半的时间。“可以说今天LinkedSee灵犀的愿景和市场重构需求之间产生了高度匹配,这是运维人难逢的时代机遇。”朱品燕谈道。