[自翻译][机器学习]机器学习的快乐(与随之的繁重工作)

本文首次发表于译言网,翻译自Technet.com,为[机器学习]系列文章之一。
发表地址:http://article.yeeyan.org/view/243697/442207

这篇博客文章由Joseph Sirosh所撰写。

很少有人能够重视机器学习技术(ML)在企业级应用中的巨大潜力。我有幸能够在我第一份工作的仅仅几个月之中,便尝到它潜在益处中的甜头。那是1995年,信用卡发卡机构已经开始采用神经网络模型,来实时监测信用卡欺诈活动。当一个信用卡被使用时,来自销售系统的交易数据会被发送至发卡银行的授权系统当中,在这里神经网络系统对欺诈可能性的概率进行评分。如果概率评分较高,该项交易将会被当场拒绝。我当时是从事建立这种模型的科学家,我的第一个模型交付给了南美的一家银行机构。当这个模型调度后,仅仅在第一天,银行便识别了超过一百万美元的欺诈行为,然而在这之前从未被监察出来。这是一个让人大开眼界的事物。这些年来,我目睹在诸如需求预测、故障和异常检测、广告投放、线上推荐和Cortana虚拟助理这些各种各样的应用中,机器学习技术所带来的巨大价值。通过将机器学习技术嵌入至企业系统中,各机构可以提升客户体验,降低系统性失灵的风险,增加收益并使成本显著的节约。

然而,建立机器学习系统是缓慢、耗时、易错配的一件事。即使我们现在能够分析非常庞大的数据集,并将其调度于非常高的事务处理速率上,仍有几个瓶颈存在:

  • 机器学习系统的开发要求深厚的专业知识。尽管机器学习的核心原理已经开放给更多的受众,但有本领的数据科学家仍如二十年前那样难以聘到。
  • 从业者被迫使用各种工具来收集、清洗、合并和分析数据。这些工具的学习曲线相当陡峭,并且互不协调。使得调度和维护商业性质的机器学习软件变得非常昂贵。
  • 建立和验证模型要求相当大的实验能力。数据科学家常常发现,由于需要运行能够产生庞大新数据的大量实验,他们自己却因有限的计算和存储能力而难以开展。
  • 软件工具不支持可扩展的实验和途径来统筹实验正常运转。例如在实验中团队作案,共享派生变量、脚本等行为,没有支持工具,只能临时安排并手动完成。评估和调试统计模型仍然是一个挑战。

数据科学家们进行机器学习的实验时,通过编写定制程序和重复无差别的繁重体力活来绕过这些工作限制。但在调度阶段,这会变得更加艰难。在诸如实时欺诈预防或广告投放这样作为关键任务的业务过程中,调度机器学习模型便要求其为复杂精密的工程:

  • 通常情况下,脱机开发出的机器学习模型现在必须在C++、C#或者Java语言中重新实现。
  • 必须深入检测交易数据管道。在脱机模式下使用过的数据转换和变量必须重新编码和编译。
  • 重新实现的过程中不可避免地会产生各种问题Bug,要求去确认这些模型能够如最初设计那样正常工作。
  • 必须建立一个对该模型定制的具备适当检测、度量和记录功能的容器接口。
  • 为了评估并行的替代模型,先进的调度需要A/B测试框架。我们需要的机制是,最好在一种无需重新编译和调度整个应用的情况下,实现接通和断开。
  • 我们需要确认在整个统计校验测试中,候选产品模型能够如最初设计那样正常运转。
  • 由系统和交易输出所自动生成的决策,必须为精炼和检测机器学习模型而记录。
  • 服务必须以旨在高可用性、灾难复原和数据趋于结束点而设计。
  • 当不得不拓展服务以满足更高事务处理速率和低延迟时,为了供应新硬件设备、调度服务于新机器并向外拓展,将会需要完成更多的工作。

如上这些步骤均耗时且工程量大集中。在基础设施建设和人力双方面都花销不菲。一个机器学习应用的端到端的工程和产品维护,要求一个技能高超的团队,以至于极少能有组织机构可以将其建立和维持。

微软Azure ML(Azure机器学习技术)便是为解决这些问题而设计的:

  • 它是一个完全托管的云服务,无需安装软件、无需设备管理、无需克服操作系统版本和开发环境所带来的问题。
  • 只依靠一个浏览器,数据科学家们便能在从任何位置、任何设备登录到Azure然后开始开发机器学习模型。他们在Azure云存储中,可以群集几乎无限量的文件。
  • 机器学习工作室,一个为机器学习技术集成的开发环境,通过简单地拖拽和连接范式,让你以简单的数据流程图而建立实验。数据科学家们可以省去为大量而相同的任务所做的编程工作,从而使他们专注于实验设计和迭代。
  • 它提供许多实验模版,使之更容易上手。
  • 它内置一系列由微软研究院开发的最佳种子算法,支持自定义R语言——能在Azure ML里安全使用超过350个开源R语言软件开发包。
  • 数据流程图可以搭载几个能够自动并行运行的并行路径,从而使科学家们能够突破通常的计算能力的约束,而执行复杂的实验和完成并行的比较。
  • 各种实验易于共享,这样其它科学家便能接手你的工程,在你停滞之处继续工作。

Azure ML也能够使在云端创建一定规模的产品调度更为简单。预训的机器学习模型能被纳入一个评分工作流之中,并且通过几次单击,便能创建一个新云托管的REST API(含状态传输接口)。这个REST API为响应低延迟而设计。它无需重新实现或移植——一个胜过传统数据分析软件的主要强项。数据来自互联网的各个地方——笔记本电脑、网站、移动设备、可穿戴设备和可连接的各种机器——都能被发送到新建的API(应用程序接口)以返回预测。例如,一个数据科学家能够创建一个监测欺诈的API接口,此接口会将输入交易信息,然后返回输出一个低/中/高风险指标。这样的API接口将“生活”在云端,随时准备着接受来自开发者所选择调用的任何软件。API后端弹性地扩展,这样在事务处理速率飙升时,Azure ML服务便能自动处理负载。事实上,一个数据科学家能够创建和配置的机器学习接口是没有数量限制的——并且完全不依赖于任何工程。对IT和工程而言,使用那些REST API接口来集成一个新机器学习模型变得简单,并且在调度之前来测试并行的多个模型也变得容易,从而在低开销上显著地取得更好的敏捷度。在衡量包括可用性、延迟度和性能这些机制的生产过程中,Azure提供了API接口扩展和管理机制。因此,建立健壮、可用性高、可靠的机器学习系统,并管理其生产调度,对企业而言,是显著地更快、更便宜和更容易的,并伴随着巨大商业利益。

我们相信Azure ML是游戏规则变革者。它使创业公司和大型企业都能获取到机器学习的难以置信的潜力。以前只有最复杂的业务才能获得的功能,创业公司现在就能够同样地使用。更大的企业能够释放在他们大数据中的潜在价值,以大幅度地提高收入和效率。尤其是现在可能实现的迭代和实验速度,将会为快速创新留出余地,为我们周围智能云的互联设备铺平道路。

当我在1995年开始我的职业生涯,需要一个大规模组织来建立和调度信用卡欺诈监测系统。运用像Azure ML这样的工具和借助云计算的力量,一个富有才能的数据科学家凭一己之力便能实现这般壮举。

Joseph
注:本文由微软研究院提供,授权译言进行翻译,非商业转载请注明译者、来源,未经许可不得商业使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容