从预测到决策,九章云极DataCanvas推出YLearn因果学习开源项目

2016年,AlphaGo 击败了围棋世界冠军、职业九段棋手李世石,以机器学习、深度学习为核心的人工智能技术,势不可挡地进入了大众视野。然而,在经历了之前几年的高速发展后,无论学术届还是工业界,无论基础理论还是实际应用,人工智能技术似乎都遇到了瓶颈,进展相对缓慢。

造成这个现象的本质原因,是当前机器学习技术与通用人工智能(Artificial general intelligence,AGI)之间还存在着巨大的鸿沟。一方面机器学习模型自身存在泛化能力和稳定性差的问题,并且过度依赖数据拟合,缺乏可解释性;另一方面人工智能的目标是实现“决策”,而当前机器学习技术只能实现“预测”。前者需要提供指导性的分析,例如企业想实现销售增长、用户数量增加的目标,应该如何去做;而后者目前只能根据历史数据进行预测,告知企业未来会发生什么。现在数智化的企业更需要的,是自动化的“决策”而不仅仅是对未来的“预测”。以相关性为基础进行预测的机器学习,在面对需要因果关系为前提的决策性问题时就显得力不从心。

正因为如此,2011年图灵奖得主 Judea Pearl 提到,“机器缺乏对因果关系的理解可能是给它们提供人类水平智能的最大障碍”,2019 年图灵奖得主 Yoshua Bengio 也说“因果关系对于机器学习的下一步进展非常重要”。因果推断(Causal Inference)开始被认为是人工智能领域的一次范式革命,成为近年来的研究热点之一。

从古希腊到2022年,因果推断正在成为 AI 领域热点研究方向

因果推断(Causal Inference),是关于因果关系的推断,研究如何更加科学地识别变量间的因果关系。

因果问题是一个非常古老的问题,当人们意识到某些事物的变化会导致另一些事物产生时,便有了对因果的直觉性思考。古希腊时期,亚里士多德提出了四因说,开启了对因果的哲学性思辩。18世纪,英国哲学家大卫·休谟提出了三大难以解决的问题,对因果关系的普遍性和必然性进行了反思。20 世纪初,美国数学家 Jerzy Neyman 提出了用于因果推断的“潜在结果”(potential outcomes)数学模型,把因果推断从一个哲学思考变成一个科学问题,成为因果推断发展过程中奠基性的突破。

20世纪 70 年代,哈佛大学著名统计学家 Donald Rubin 在 Neyman 的研究基础上进行了进一步延伸,将其从完全随机实验的领域扩展为在观察性和实验性研究中思考因果关系的一般框架,也就是鲁宾因果模型Rubin Causal Model (RCM)。差不多同一时期,另一位著名科学家,图灵奖得主、“贝叶斯网络之父”Judea Pearl,利用结构因果图以及 do-操作、反事实分析等概念,创建了结构因果模型Structural Causal Model(SCM)。现代有关因果推断的理论研究就主要基于以上两个基本理论框架。

因果推断主要解决因果发现(Causal Discovery)、因果量识别(Identification of Causal Quantities)、因果效应评估(Causal Effect Estimation)、反事实预测(Counterfactual Inference)和策略学习(Policy Learning)五大类的问题。

国内外的一些大型企业,近些年都在逐步加大对因果推断领域的投入和应用。UBER、滴滴等共享汽车的平台,在弹性定价上高度依赖因果分析模型来提高整体收益率,腾讯等视频平台则使用基于因果分析模型的广告投放工具来帮助提升用户 ROI。

现有的一些因果推断工具集

目前国际上关于因果推断的产品和工具也有很多,例如CausaLML、EconML、CausaLearn、DoWhy 等等。不同产品和工具的侧重点都有所不同,例如 CausaLML 由 UBER 开源,定位是一个 uplift 建模专用的工具,主要解决因果效应评估类问题。EconML 由微软研究院开源,重点也是围绕因果效应评估类问题。还有 Causal-learn,专注于解决因果发现类问题。可以发现,市面上的工具包各自解决了因果推断中的部分问题,缺少系统、完整的、综合性、端到端的因果学习工具包。

YLearn:全球首款一站式处理因果学习完整流程的开源算法工具包

九章云极DataCanvas是国内一家专注于人工智能、机器学习与数据智能基础软件的公司,2020年公司就看到了因果推断对人工智能未来发展的重要性,并将因果推断作为重要的研发与突破方向,2021 年 6 月正式启动了 YLearn 因果学习开源项目(https://github.com/DataCanvasIO/YLearn)。

YLearn 因果学习开源项目(以下简称“YLearn”),是全球首款能够一站式处理因果推断完整流程的开源工具包,它几乎包含并解决了因果推断领域中所有的核心问题,包括因果发现、因果量识别、因果效应估计、反事实预测、策略学习等,同时提供了面向用户的基础API。YLearn 还提供了重要模块的可视化输出,如因果图、因果效应解释、决策树等,帮助用户更直观地理解数据、调整策略、实现预期。

YLearn工具包组成

我们能看到,与上述其他产品和工具相比最大的不同,是YLearn具有一站式、新而全、用途广等特点。

首先,YLearn一站式地支持从数据中发现因果结构、对因果结构建立因果模型、使用因果模型进行因果识别、对因果效应进行估计等一系列功能,使用户能以最低的学习成本使用与部署。

其次,YLearn实现了多个在因果推断领域中发展出的算法,例如 Meta-Learner、Double Machine Learning 等,也将一直紧跟前沿进展,保持因果识别与估计模型的先进和全面。

最后,YLearn还支持对因果效应进行解释、根据因果效应在各种方案中选取收益最大的方案并可视化决策过程等功能。除此之外,YLearn 也支持将因果结构中识别出的因果效应的概率分布表达式以 LaTex 的形式输出等小功能,帮助用户将因果学习与其他方向的研究进行交叉融合。

YLearn 工作流程图

据介绍,YLearn的应用目前主要集中在两个领域,一个是用于弥补机器学习理论上的缺陷。在机器学习模型中加入因果机制,利用因果关系的稳定性和可解释性,优化模型、提升效率;另一个是帮助实现用户需求从预测到决策的迁移,例如使用基于因果推断的推荐算法帮助企业进行客户增长和智能营销等。

目前九章云极DataCanvas已正式对外发布了第一个版本,后期也会持续进行版本的迭代。

九章云极DataCanvas的主任架构师杨健对CSDN透露,接下来,YLearn 将做大量落地实践和验证的工作,并结合DataCanvas APS自动机器学习平台、DataCanvas RT实施决策中心等平台级产品,进一步实现客户在决策任务上的需求。同时结合客户实际场景,沿着帮助企业建立决策图谱、解决因果学习的自动调参和优化问题、实现高效的特征发现和特征工程,提高机器学习的泛化能力、解释性等不同路线进行演进。最终,就像机器学习中的scikit-learn一样,九章云极DataCanvas希望YLearn能够成为因果推断领域的基础算法包和必选项。

人工智能发展到今天,业界涌现了层出不穷的机器学习和深度学习技术,都是希望帮助人们更准确的分析问题,甚至预测未来。现在,因果推断能够帮助AI模型赋予因果关系,弥补机器学习理论的缺陷,正在解决从“是什么”到“为什么”的问题,也因此,因果推断将是进一步发展人工智能技术的必经之路。又或许,因果推断将成为 AI 能否像人类一样思考、强人工智能是否能够实现的关键。

前沿技术的演进道路从来都是未知而迷人的,也希望中国有更多人工智能技术的研究人员和爱好者,能够进入因果推断这个充满机遇和挑战的领域,充分发挥自己的聪明才智,为人工智能技术带来跨越式的发展。CSDN将持续关注与报道因果推断与九章云极DataCanvas YLearn因果学习开源项目的发展。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容