【www.hj8828.com】顺丰全栈资源下的自动化运维灵魂,丰全

一个运维如何从底层走上人生巅峰,搴曞眰璧颁笂宸呭嘲

接下来要把手机横过来

【欢迎投递】

【运维内推-顺丰】顺丰2018年度招新计划

2017年最精彩的自动化运维、智能运维文章都在这了,2017年

2017年,我们不断的探索运维自动化,努力将运维从苦海中解救出来。

关于“运维自动化”的热门文章都在这了:

  • 有赞数据库自动化运维实践之路

  • 顺丰全栈资源下的自动化运维灵魂

  • 六个人如何运维一万台服务器?

  • 从ITIL到SRE | 唯品会运维自动化实践

  • 去哪儿网的硬件自动化运维体系建设之路

  • 不会 Python 的运维都将失业?(内含福利)

  • 8亿人晒军装:背后的运维技术大揭密!

  • 自动化运维之架构设计六要点 | 腾讯大梁专栏

  • 老司机带你飞|怎样构建基于SDN网络的自动化运维系统?

  • 魅族容器云平台基于k8s的自动化运维实践

  • 中国人寿自动化运维自主研发之路

  • 中小企业如何优雅的管理多机房服务器账号

  • 链家网的第三种运维

  • 就是干!移动的运维实践之路

  • 腾讯上万节点大规模集群的跨城自动迁移

  • 阿里大规模计算平台的自动化、精细化运维之路

  • 携程网基于应用的自动化容量管理与评估

  • 360网络运维自动化演进之路

  • 盛大游戏万台服务器自动化运维

  • 【重磅】显微镜下的运维自动化

  • 从“救火队长”到“自动运维”,值得收藏的运维知识深度普及贴!

  • 实战:基于Python构建运维自动化平台

  • 如烹小虾: 运维自动化闭环,腾讯是这样做的

  • 全自动部署KVM虚拟机的设计与实现

  • 运维自动化之殇

  • 浅谈自动化运维设计思想

  • 运维自动化与标准规范化:解析、设计及实现

  • 中小企业运维自动化部署实战

这时,AIOps的到来,让运维自动化指日可待

裴丹

清华大学副教授 ,青年千人

清华裴丹:AIOps 落地路线图

清华裴丹:我在智能运维科研领域的一些思考

赵建春

腾讯SNG 助理总经理,GOPS 金牌讲师

腾讯赵建春:AI浪潮下的高效运维思考及实践

张博

搜狗运维保障部总监

揭秘人工智能下的搜狗智能运维实践

吴树生

腾讯高级工程师,负责SNG大数据监控平台建设

如何实现多维智能监控?–AI运维的实践探索

2018年,在哪里还能 get 到关于自动化运维、智能运维

最用心、可落地的分享?

在哪里可以学习到没有套路,没有广告,只有最前沿的,深入浅出的干货?

2018年,GOPS 全球运维大会第一站:深圳站

—— AIOps 风向标

GOPS全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践。

2016年GOPS四次大会参会嘉宾累计突破1.2万人次,分别为:深圳站、上海站、美国站和北京站,国内三站均为本地区最大规模的高端运维盛会,满意度和推荐度高达95%以上。

2017年GOPS大会分别为北京站,深圳站,上海站,参会人数超过万人以上,涉及互联网,教育,医疗,军工,地产,金融,银行,证券,保险,物流,中小企业,电信,移动,游戏,制造业等等行业,参会人员以运维经理运维总监为主,以及系统架构师,网络工程师,CIO 
CTO  CEO等。

目前已经确认参会分享的大咖们:

欢迎在运维领域颇有建树的您成为GOPS讲师

有意向的老师请联系:[email protected]

全球运维大会共设 19个专场,无论你想学习哪一个方向,都有你要的。

全球运维大会重量级议题:

推荐演讲

《衡量 – DevOps 架构下的人工智能思维》

衡量不是一种工具或是产品,而是一种工作方式。人 + AI=
正如钢铁人与他的人工智能 JARVIS
之间的运作方式,由AI来提供参考数据辅助人类进行决策,其实它就是一种衡量。虽然未来是无法预测的,但却是可以衡量的,只是我们没有去做罢了,而人工智能正可以扶助我们做到更好的衡量,但对人类而言重点还是在观念,一种对或然率的正确观念。本演讲将说明如何将衡量的观念运用在DevOps的开发框架三步工作法中。

讲师介绍:李智桦,台湾著名精益布道师、敏捷顾问。《精实开发与看板方法》、《Windows
Azure云端开发》、《WF工作流程引擎程序设计》等书的作者。1981
毕业于台湾淡江大学物理系。专业的软件工程顾问、Scrum及看板课程教学的讲师。担任过四家信息公司的研发部经理。擅长新创公司的项目开发工作,拥有超过30年以上的程序撰写经验。曾任多家著名企业的敏捷顾问。爱好撰写程序,包括汇编语言、C#、VB数种语言。是
OpenSource 的拥护者,开放自己所有的程序代码。

《千亿交易背后的0故障发布》

天下武功,唯快不破,互联网产品尤其这样,迭代速度成为了产品能取胜的关键点,快速稳定的发布成为了帮助产品或者用户更快的实现业务目标的重要竞争力。随着运维工具(发布系统)的逐步完善,发布已经越来越容易、越来越高效,从传统的几个月发布一次已经能够做到一天发布多次,但单日均几万的发布量,涉及几千的产品,如何在快速迭代中保障发布不出问题,却是摆在各个研发同学面前一个头痛的事情。阿里的发布系统(诺曼底)一直致力于发布稳定性的保障,尽量减少发布过程引起故障,为此,我们引入了一套智能化的解决方案–无人值守发布,来提前发现和终止发布带来的问题。

讲师介绍:少荃,阿里巴巴运维技术专家。在阿里多年,从事过业务系统的开发,也负责过核心系统,这几年投入到运维领域的系统研发,主要负责阿里的发布系统,致力于提升发布的效率和稳定性,研发过大规模文件分发利器-蜻蜓等,近期主要在做研究智能化在发布稳定性保障这方面的实践。

《负重前行—顺丰数据库运维的求变之路》

从技术和管理2条线,历数顺丰数据库架构,从传统Oracle全面转向大型分布式Mysql集群的关键节点,一场高速运行的列车上换轮子的历程;并介绍为了适应这种变化,顺丰DBAs打造的智能运维利器:Thinkdb-运维管理平台。

讲师介绍:刘力,顺丰科技
应用数据支持部负责人。2013年加入顺丰科技,数据库团队负责人,主导了顺丰科技数据库架构从非标到标准,从传统到开源,从集中到分布式的技术演进;带领DBAs,从被动到主动,从不变到求变,从人工到智能的运维模式转变。十余年大型数据库架构设计和管理经验;曾任职平安科技,负责银行业务线数据库架构设计和管理。

更多演讲内容介绍请前往大会官网:

⬆️ GOPS 2018 深圳站

GOPS2018深圳站大会出品人:

按字母顺序排列

欢迎在运维领域颇有建树的您成为GOPS出品人

有意向的老师请联系:[email protected]

引领着中国运维行业发展的 GOPS 已经走到了第九届,在新的一年中,GOPS作为
AIOps
的风向标
,继续带领广大运维朋友探索运维行业的发展方向与最佳实践。

⬇️ 都有谁参加过GOPS

⬇️ 参会者职位

⬇️ 参会者行业

⬇️ 工作年限

⬇️ 公司服务器规模

报名方法

长按二维码,进入官网报名,大会早鸟价倒计时1个月。

3人以上团购优惠请联系刘静:130 2108 2989

⬆️ 官网报名

⬆️ 限时早鸟价6折票

商务合作请联系刘欣:158 0111 5386

送礼物啦

在你的头脑中,AIOps 是什么?

分享给我们吧,24h留言Top5将获得《 DevOps
三十六计-运维珍藏版》一本哦,兑奖请联系:刘静:130 2108 2989

点击阅读原文,参与2018年运维人的开年聚会吧!

顺丰全栈资源下的自动化运维灵魂,丰全

【运维内推-有赞】中国领先的 Saas 软件服务公司邀您加入

作者简介:

陈天宇
顺丰科技系统技术管理部负责人,07年参加工作,先后任职于中国电信、平安科技、顺丰科技,专注运维领域10年,从公务员到运维工程师,再到高级小步兵,一路坚守用技术解决问题的理念。目前任职于顺丰科技,负责操作系统相关的技术管理工作。

【运维内推-CHINAMSP】高薪诚聘各路云计算大牛

前言:

首先,我们先发散一下思维,后收敛。天下武功为快不破,互联网时代,让大家可以充分的分享信息,运维大会这类平台再早5年的话,在中国做运维不会这么苦也不会那么累。

本文、我分享的主题是全栈资源下做自动化。做运维到现在,参加过7*24小时值班,抗过机器,敲过代码,也玩过数据库,这个课题也是在帮我回顾总结这些年的运维经历苦难后留下的一些思考与总结。

我觉得我没有遇到运维的好日子,我真正从推板车模式里走出来,才发现原来大家都是这么玩的,大家都在玩自动化,都是以这个方法论、方向在玩,都在向
AIdevops 前进。

好的东西大家都会认同,长的帅的,基本帅的差不多。大家都知道美好的运维长什么样,但达到这个目标的路线是大家最关心的,我们也正在这条路上。

工程师与科学家的不同在于,工程师专注于这件事情怎么做,像步兵一样,一步一个台阶往前进,我接触的大多是运维“工程师”,戏称高级小步兵。我喜欢这样去呼呼我们的同事、包括我自己。下面把思维收敛到具体的内容,看看我们在顺丰的步兵前行记。

一、服务器资源KPI时代

我们回归正题。讲自动化之前,我先讲讲我们所处的资源环境及规则。先讲一下服务器KPI。借用三个经典哲学的问题来思考为什么服务器资源的KPI不能忽视。

我是谁?我们是哪个行业?我们做运维,我们是IT行业;我们在这个行业当中,我们为什么站在这个风口浪尖上,为什么大家这么关注运维?

我前端时间看到有个朋友圈分享的信息:“老板说,你觉得你的公司需要运维吗?运维经理回答说,过独木桥的时候,老板你觉得需要栏杆吗?独木桥上没有栏杆你也可以走过去,但是有栏杆你走的更放心,运维就是一家公司的护航、类似医生。你造一个航母要有人维护这个航母。”

在这巨大的包含了思想、技术、智慧的灵魂流入IT行业的时候,同样需要强大的肉身来装载,肉身在这里我狭义的定义为基础硬件,广义的大家可以理解为运维。服务器资源作为基础架构三大组件资源之首,逃脱不了被KPI规则化。

1.1、服务器资源KPI时代-我是谁

顺丰服务器的增长迅猛增长,2013年服务器数量到2017年翻了20倍。服务器增长快到什么地步,2013顺丰机房的兄弟人手不够,做系统、虚拟化、windows的同事全部前线支援上架。

IT部门目前是纳入成本中心,服务器的每笔采购必须是把背景、技术框架、物理部署架构、上线计划、容量评估依据等讲的清清楚楚,这就需要完整的容量管理体系,在这个体系里哪些点才是key呢?在这快速增长过程中,我们的人员实际上是没有翻倍增长的,这些就是运维技术发展带来的红利。

我常与我们同事分享一个理念:我们追求运维新技术,刷新自己的技能不是为了追赶潮流,而是学习多一种新手段,在解决问题的时候会多一种选择。在这种引导下,现在我们再去给老板汇报预算的时候,都有数据支撑,我们把所有的从底层自服务器安装到OS标准化,到虚拟化模板,到应用、数据库的配置,及容量性能监控采集数据全部入库,并可展示。

还有下面一张图,是摩尔定律的,每26个月晶体管数量翻一番,现在来看摩尔定律遇到最大的问题就是如何解决散热,如果芯片设计不出现根本性变革,摩尔定律可能被打破。

说到这里,大家认为服务器KPI需要设定吗,怎么设定?是看使用率、看故障率、看采购价格、根据应用场景看使用率区间?如果使用率设置为KPI,那就是为performance
tune埋坑,数据库、应用优化做的越好,使用率反而更低,不合适。

好的KPI应该是服务器资源交付快,快到小时级别;硬件故障率低,低到整机千分之5以下;使用率在考虑HA及最优配置及业务高峰后,越接近服务性能极限越好。后面我们来说这些我们的行动路线。

1.2、服务器资源KPI时代-我从哪里来

我们从哪里来?这里要回到服务器资源投入到哪个业务上,带来的预估价值上来。之所以是预估价值,是因为这些涉及太多边际成本,我们只能狭义的去预估这个业务的价值,同样从业务到IT投入的价值评估模型建立我们也在进行中。

X86服务器不像小型机那样“高贵”,硬件的供应多选择,所以在选择的能力上我们要有,怎么做:建立硬件性能指标体系,看右侧的图就是我们底层用的工具。

明知芯片速度的提升已经达到难以为继的境界,但是人类对速度的追求却并没有丝毫停歇的意思。那怎样在不烧毁计算机的情况下满足人类漫无止凌的贪婪呢?

质量上不行,数量上补:多核结构出现。这当中,美国的一个研究室得到一个结论,并不是买机器的时候核数越高越好,服务器的核数对于OLTP型的应用性能提升最高是在八核的配置下;这些就让我们知道在选型的时候不会盲目追求核数越多越好,也知道应用迁移的时候,核数的增多带来的应用性能提升不一定对等。

1.3、服务器资源KPI时代-将要去哪里

我有个朋友在一家上市的电子公司工作,他们有全国有6个工厂。IT系统基本靠5台小型机承载;然后他问我,能不能也搞自动化?我说,你们用的小型机也挺稳定,而且运维共计就三个人,自动化没有必要做,但可以学习其中有用的理念:精益运维、主动预防。

做运维自动化,很多同事会问你的目标是什么,投了多少人,产出的如何,实用性如何?资源这块,我没办法解决,但目标我们不能变,不能因为资源影响我们运维人对美好运维生活的向往。

只有目标不变,我们才会自发的向这个方向走,当大家尝到好处,接受的人会越多,公司也就越支持,自然得到的资源就会越多。

首先强调是说,运维开发,为什么不是开发,它是运维出身的,你代码的逻辑都是用运维的思维沉淀下来写的;

我以前以为外面的和尚会念经,我招了一个,然后我让他写个自动化绑IP的API功能,就是VIP的;后来他2、3个小时写出来了,我看了一下,几条命令搞定了;我开玩笑说,你疯了,你入参这个不判断一下,别人输入字符串呢?掩码不判断下,别人输入的不同网段呢,不限定数字,别人输入260呢?

所以就是说,做开发的,他会写代码有这个开发能力,但是没有这个逻辑,根本写不出来你想要的东西。

这里有个能力三条边模型,类似字母“Z”,最下面的这条边我们可以叫做我们掌握的运维的逻辑规则基线,类似CAP理论、高可用、灾难应对、容量管理逻辑、应用日志输入规范、安全基线要求等等;最上面的边,我们可以叫做我们要做的事情或者目标;中间的斜线就是我们要达到目标的路径或者说的步骤,你会发现能力基线与目标与接近,斜率越小,也约容易。

招一个没有运维经验的研发,就好比基线在地底,你要完成运维开发的目标,斜率接近90度,挺难的。

我开始带团队只有2个人,现在有18个人,我当时因为去内部新生ITclass分享工作心得,赢得两位新大学生的青睐,2个研究生分组自愿到了我们团队

来了之后,我说你给我把所有的工单做一下,而且不用太分边界网络、数据库,这都要理解其中的原理;我会给他们强调:岗位有边界,但是技术是没有边界的(其实是引用的一位科学家的爱国之言,科学没有国度,但是科学家有祖国。)之前大家都是写sh,后面我提要求,所以自动化编码默认都使用python,这种自觉的推动下,大家的这种基本编码能力建立起来了。

为什么在爱因斯坦那个年代那么容易出伟大的物理学家;挺老一辈讲那时的大学老师去讲课的时候,都会很谦虚的说,今天讲相对论,我还太不懂,大家一起互相交流,相对论提出来的时候全世界懂的只有2.5个人;因为当时做物理研究的人很少。

现在做运维的很多的知识充分的交流,充分的去学习之后,大家已经知道了做的好的是什么样,已经知道了蓝图,如何去实现变的有迹可循。走这条路,没钱没资源,你有那么多坑要填,还是负责运维,要交付资源,交付网络,交付各种工单,真做这个事情需要领导认同;给予编制、给予支持、给予容错、给予严厉的价值要求。我很幸运遇到了一个这样的老板,他是这条路线的支持者,给予了我们很大的帮助。