AIOps | 运维新姿势

AI人工智能技术近几年发展得如火如荼,而随着深度学习技术的成熟,AI也正在逐步从尖端技术慢慢变得普及,AI目前已经可以实现很多功能了,如语音识别、自然语言理解、数据挖掘、计算机视觉等。除此之外,现在又多了一个落地应用——这是一座尚未开采的金矿——AIOps。

2016年,Gartner定义了一个新名词——AIOps,即基于算法的IT运维(Algorithmic IT Operations),这可能和你的第一反应Artifical Intelligence Operations有所偏差,不过本质上意义是一样的。Algorithmic IT Operations源自业界之前所说的ITOA(IT Operations and Analytics),算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来,运维插上了机器学习和算法的虎翼,将变得更自动化、智能化。Gartner 的报告宣称,到 2020 年,将近 50% 的企业将会在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%。

智能运维的必要性相信不必多言,如今的IT基础架构相比于前五年,前十年,规模和复杂度都呈倍数增长,服务数量更是呈指数增长,早期的运维方式已经无法负荷愈加沉重的工作量,而人工智能的发展给运维带来了契机,AIOPS应运而生。

IT 运维发展历程

1. 人工运维时代

初期阶段IT基础设施通常处在小规模状态。几台至几十台机器的规模,足以满足业务需求。早期一般企业采用的都是人工运维,决策分析几乎完全由人工完成。

2.自动化运维时代

随着云时代到来,IT基础设施迅速发展成几百上千台服务器,更多的业务系统上线,因此,各类孤岛式的运维管理工具也开始上线,提升运维效率。

3. DevOps时代

DevOps是一组过程、方法与系统的统称,企业希望将原本笨重的开发与运维之间的工作移交过程变得流畅无碍,便可借助DevOps来完成,DevOps的目标是流程的自动化——让代码完成过去手工的工作,从而大大节省成本。

4. AIOps时代

AIOps智能运维,用机器学习方法做决策分析,算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来。

AIOps智能运维如何做好?

清华计算机系副教授,智能运维算法专家裴丹教授为我们提出了如下见解。

机器学习本身有很多成熟的算法和系统,及其大量的优秀的开源工具。如何成功的将机器学习应用到运维之中?还需要以下三个方面的支持:

1.    数据。互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。

2.    标注的数据。日常运维工作会产生标注的数据。 比如出了一次事件后,运维工程师会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。

3.    应用。运维工程师是智能运维系统的用户。用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。

AIOps落地谁家?

Google | 数据中心人工智能模型

早在2014年,人工智能就在IT运维领域有所应用,在Google,人工智能是提高各个大型数据中心效率的重要工具。

Google使用“类神经网络”技术分析其众多数据中心的工作情况,并根据所得数据进行维护。这个“类神经网络”的核心部分其实是一些算法,可以识别模型(patterns),并根据相应模型做出判断,即Google使用这些算法管理数据中心。它们无法超越人脑,但在某些情况下却更快,更全面。

从具体来看,每隔几秒,Google就会收集数据中心所有的处理信息,从设备耗能多少,到硬件冷却到室温需要多少水无一不包括。Google数据中心青年工程师Jim Gao就是使用这些数据构造人工智能模型,在不同条件下预测数据中心效率。如果数据中心的效率低于模型预测,公司就会收到相关信息。这个模型,同样可以帮助Google决定何时管理数据中心的设备,比如何时清理热交换器,提高设备冷却性能。这样一来,这个模型具有辨别功能,解放了Google的工程师们,也大大提高数据中心的运维效率。

百度 | 基于日志 trace 的智能故障定位系统

结合机器学习技术的进步,百度实现了一套基于日志 trace 的智能故障定位系统及其背后的一套技术方案,最终能够实现 WQPS/sec 的 PV 根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

阿里 | 机器学习在大规模服务器治理复杂场景的实践

我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上, 面对如此庞大的基础设施, 传统的运维方法受到了极大地挑战。海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。

在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现 ->定位 ->跟踪 ->修复的一站式解决方案。

各个行业的企业正在采用AIOps——银行、娱乐、交通、零售,甚至政府。从运维的发展角度看, AIOps 是必然趋势,将为企业带来最直接最深远的价值。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容