图片 2

AIOPS是什么,它的未来如何?,AIOPS未来

AIOPS是什么,它的未来如何?,AIOPS未来

AIOps,也就是基于算法的IT运维(Algorithmic IT
Operations),是由Gartner定义的新类别,源自业界之前所说的ITOA(IT
Operations and
Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的IT运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。

在过去的几年间,一些新技术不断涌现,利用数据科学和机器学习来推进日益复杂的企业数字化进程,“AIOps”(Algorithmic
IT
Operations)因此应运而生。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。

AIOps的不同之处在这里体现出来。AIOps的解决方案专注于解决问题,而且是通过使用基于算法的技术来高度模仿人类(而且以更快的速度和更大的规模)。算法的效率提升了AIOps的价值,而相对于人类的智慧——虽然是无限的,但不如机器来得高效。下面这个案例是基于机器学习的
KPI 自动化异常检测。

上图表示运维人员判断 KPI 曲线的异常并标注出来,
系统对标注的特征数据进行学习
。这是典型的监督式学习,需要高效的标注工具来节省运维人员的时间:
如可以拖拽,放大等方式。

借助智能算法的技术优势,原先人工需要几个小时完成的任务现在通过自动化可以在几秒钟内完成,而且能够得到更好的结果。传统的IT运维需要管理大量的告警,极大地分散了企业的注意力,他们需要花很多时间解决无聊的问题,没有时间用于创新。使用AIOps可以解决这些问题,把运维人员从纷繁复杂的告警和噪音中解脱出来。各个行业的企业正在采用AIOps,他们使用这项技术来改进客户的数字体验——银行、娱乐、交通、零售,甚至政府。

尽管AIOps还是一个新名词,但并不代表它只是未来的一种趋势而已。在这个数字的年代,任何使用传统技术来管理机器数据的组织要么忽略了信息的价值,要么已经让他们的运维团队不堪重负。随着数据的暴涨,CIO们应该快速拥抱AIOps。传统AI仍然会在某些领域发挥它的作用,而AIOps将为企业带来最直接最深远的价值。

转载自:

2017-11-30擎创科技 孙QQ编

简介:随着机器学习、深度学习等人工智能技术在IT领域的广泛应用,AIOps智能运维将为数字化企业提供更高的管理效率和更低的运营成本。

*
*

在互联网和数字化成为全球经济增长新引擎的今天,企业管理和业务运行与IT系统健康息息相关,高效的IT管理能帮助企业在瞬息万变的市场竞争中获得快人一步的竞争优势。然而云计算、虚拟化和微服务技术的应用使得企业IT系统越来越庞大而复杂,要满足高性能的业务运行需求绝非易事。

当前互联网和移动互联网发展迅猛,从事各个行业的企业为了应对日趋激烈的市场竞争,纷纷进行了数字化转型,利用移动互联网技术、云计算及大数据等新兴信息技术发展企业的数字服务,从而吸引客户,帮助销售和推广产品,提升客户体验。

特别是为了提升用户访问体验而广泛采用的分布式应用系统和CDN资源,以及越来越复杂的网络接入环境,使得IT部门很难第一时间发现IT故障的发生。企业为了保障系统的高可用,降低故障率,往往会进一步扩大IT系统规模,于是业务增长越快、IT规模越大,IT管理的负担越重。

然而,随之而来的是规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据,同时公司业务对IT系统的连续性要求也进一步提高。

图片 1

面对这些新形势下的挑战,IT
运维管理(ITOM)需要从原有的人工加被动响应,转变为更高效、更智能化的运维体系,为新形势下的IT系统保驾护航。

在2016年,Gartner针对IT发展和运维管理的困境,提出了一种全新的运维管理方法,以减轻企业IT的负担,提升管理效率,这就是AIOps智能运维。AIOps是Algorithmic
IT
Operations的缩写,从字面上看是一种基于算法的运维方式,区别于传统的人工运维和自动化运维,通过基于运维大数据的机器学习,用智能决策逐步取代人工决策,提升IT管理效率,因此国内业务运维企业云智慧把AIOps称为智能运维。

当前传统的 ITOM
工具往往缺乏分析能力,虽然也能采集到运维数据,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。研究机构Forrester
曾在之前的一份报告中指出:“这些工具为我们提供了大量的原始数据,但能洞察出埋在这些数据中的有价值信息的能力还是非常稀缺的。”(来源:Turn
Big Data Inward With ITAnalytics)

AIOps的落地,将把日常的IT管理工作移交给拥有机器学习和自动化运维的智能运维平台,大大降低企业管理的时间成本和资金投入。而运维管理人员也可以从筛查海量告警信息、执行重复性巡检任务、人工判断故障、手动解决问题的低效工作中释放出来,专注于构建更加高效、高扩展的IT系统,支持企业的数字化业务发展,这也就是业界所倡导的“IT从运维到运营”之路。

令IT运维团队感到欣慰的是,智能运维(AIOps)踏着人工智能的时代浪潮应运而生。

AIOps智能运维平台还能有效预测潜在的IT故障,并在无需人为干预的情况下提前解决掉这些问题,而应用系统故障率的降低,将有效提高云计算资源的使用效率。这得益于机器学习和深度学习算法在IT监控和应用性能管理系统中的持续积累,不断记录IT运维人员在不同场景下使用故障排除或修复基本问题的自动化工具的操作。当针对不同型号设备、不同应用系统、不同的云平台的学习样本数据足够丰富时,AIOps智能运维平台就可以自动评估系统的健康状态,如CPU使用率、磁盘吞吐率、设备故障率等,如果发现了系统的异常活动,就能提前自动触发相关运维操作。

Gartner在2016年发布的报告中首先提出了基于大数据及算法(Algorithmic IT
Operations)的 IT运维概念。随着人工智能的快速兴起,Gartner 将 AIOps
的概念从原本的基于大数据及算法,扩充为基于人工智能(ArtificialIntelligencefor
IT
Operations,AIOps),期望通过大数据、现代机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。

企业采用AIOps的能力不仅取决于IT监控系统的数据规模和自动化系统的可用性,还取决于人员和流程的一致性。服务商可以在很短时间内把AIOps智能运维平台部署到企业,但任何管理转型都不是安装一套系统那么简单,需要根据业务特点对人员和流程进行调整,而这往往需要更多的时间。

AIOps 为IT运维提供了全新的管理思路。AIOps
的定义涵盖的两个阶段,可概括为两个层次的提升:数据到信息分析层次的提升;信息到知识提取层次的提升。

要衡量AIOps智能运维平台在企业中的实施效果,可以重点关注两项关键指标,平均故障恢复时间(MTTR)和事务(故障)处理数量,这两项指标反映到客户满意度上,就是AIOps的价值。

图片 2

以机器学习、深度学习为代表的人工智能技术的成熟,为利用IT手段持续改善企业经营水平和服务质量铺平了道路。而AIOps以IT大数据为切入点,率先解决了所有数字化和互联网+转型企业所面临的业务与IT系统断层的问题。虽然大多数机器学习项目可能需要多年才能看到价值,但AIOps平台可以用最小的代价为企业运营带来卓越的投资回报。同时,这笔投资可以长期持续的提供业务价值和提升用户口碑。

从数据到信息的分析,更多的是采用数据统计方法,帮助运维相关人员更好地从众多运维数据中了解系统的运行状态,分析并定位故障,实时获取统计数据。而信息到知识的提升更多的是希望借助人工智能算法,在信息分析的基础上通过机器学习的方式实现异常状况检测、故障/趋势分析、故障关联和精准告警。

根据权威机构Gartner的预测,比起现今5%这样的数据比例,到 2019
年,全球25%的公司都将系统性部署实施 AIOps 平台支持两个及以上的主要 IT
运维功能。到2022年,40%
的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统运维中的监控、服务台及自动化流程。

AIOps重新定义了IT运维的管理方式,为IT运维团队适时提供适当信息,以便实现以下几点。

通过采集当前环境中的运维数据,集成现有IT运维管理工具,利用聚合数据分析的技术,对IT系统中各个环节的问题进行快速定位、故障排除和预测。