数学是人工智能的必备武器

中国过去十多年的创新大部分是模式创新和copy-to-china渠道创新。但发展到今天,技术创新的重要性已经越来越高,人才结构也发生了巨大的变化。VC行业也不可能不随着市场的成熟而发生变化。中国能执行o2o的团队有几万个,能执行智能金融/法律/医疗的团队可能各自只有几十个。服务这两种市场需要不同的VC;因为理解互联网基本只需要常识,理解人工智能需要反常识;

我觉得正如互联网公司兴起时,VC被洗牌了一次,现在人工智能的兴起,恐怕VC也会被再洗一次牌。三个角度的洗牌:

1)最基础的,就是知识结构变了,理解人工智能要比理解互联网难得多,老革命们不但遇到新问题,而且很难找到懂行的助手

2)现在出现了一些新的投资机构,不再像传统的VC,而是它们本身就像一个互联网企业,用的是社区思维、服务思维,在重构VC这个行业的渠道、项目发现的方式等。传统的投资经理的角色恐怕会发生很大的变化,会更接近于产品经理+运营经理

3)新的AI投资机构,本身就是用AI技术武装起来的,他们从项目数据库、潜在项目发现、社区维护、LP服务等,都用技术手段提高自己的效率、加强信息透明度、降低人员流动的伤害。

总结:VC这个行业,也是要被技术本身冲击的。不仅仅是数据处理这个表面的事情,而会带来渠道的、人员的、商业模式的全方位变革。长江后浪推前浪,前浪死在沙滩上。如今我觉得人工智能这个专业要开个AI 101,我觉得第一节课就要讲怎么换马甲.从知识图谱到深度学习,能活到今天还不是靠一个马甲接一个马甲的换?70年代专家系统,80年代lisp,90年代agent,00年代语义网,10年代知识图谱,不会换马甲的全都饿死了,和技术水平高低没多大关系.

目前数据建设新四化:信息化,大数据化,自动化,智能化。每一个都是在前一个阶段的发展之上,也很难跳过前一个阶段。

开放数据的努力,其实分为三个部分。第一是可公开性,一个数据是否必须隐藏而不为公众以任何形式所知。第二是可获得性,即可公开的数据如何比较方便地被使用。代表技术是知识图谱。第三是可发现性,即为提高数据的采用,帮助人们从浩如烟海的数据中寻找高价值数据。代表技术是搜索引擎。 ​​​一个通常的关于开放数据的误解是只是关于可公开性的,特别是认为政府不愿意开放数据。其实不然。在提高数据的可获得性和可发现性上,包括政府在内的大量机构,都是有强烈需求的。这也是“OpenKG”组织的努力目标。

AI 对数学要求较高,对编程要求较低,而 IT 开发对于编程要求高,特别是对编程经验要求高,但对数学要求不高。

然而搞 AI 就完全是另一回事,关键是数学。大学工科数学?那只是一个基础,想再搞懂 AI 的那些基本的算法和思想,你不但需要把这三板斧基础打扎实,而且还需要学习矩阵分析和凸优化。这只是一个入门,想要在这个领域有点建树,你可能还需要在随机过程、泛函分析、微分流形、数值分析和优化理论等领域进一步深造。想要搞机器人学或自动驾驶?还得研究微分方程、运动学、动力学。毫不夸张的说,在 AI 学习的入门阶段,数学是主要的攻坚对象,任何胸有大志的 AI 学习者都不要幻想绕过数学。

深度学习现在差不多就是民工活,调来调去,刷来刷去。文章发得飞快,貌似热闹,但有多少是能沉淀下来的实质真进展、真原理、真算法、真技术,又有多少是换个数据就不靠谱了的蒙事撞大运?既缺乏清澈干净的内在美感,又不致力于去伪存真、正本清源,只图热闹好看,迟早把 arXiv 变成废纸堆。

机器学习中有效的数学方法,绝大多数都是几十年前做出来的成果。因此做 AI 工程,重点是充分理解、熟练掌握和运用这些成熟的数学工具,尊重分工,把数学领域的创新交给数学家和应用数学家。机器学习学者张志华教授曾经说过:“搞好机器学习,关键是数学,但你又不能把机器学习变成搞数学,那样就漫无边际了。”对于绝大多数 AI 工程师来说,还是应该以机器学习为主导,对于其中涉及的数学知识形成理解,打牢基础,突出重点,适度拓宽,这就算过关了。以后根据主攻方向,随用随学,急用先学,这样就可以了。

数学过关以后,还得懂编程语言、系统架构、数据库、异构平台上的高性能计算,要成为一个优秀的 AI 工程师,这些都得通。吴恩达就说过,深度学习的前沿是高性能计算。

前不久,我向一个在国内 AI 界有点名气的新锐 AI 科学家了解情况,他们手上的深度学习项目使用 Python 和 C++ 语言开发,都是基于开源的深度学习框架,但自己的工程师也要做相当程度的调整和改进。那么他们对于工程师编程语言的掌握程度有多高的要求呢?Python 语言不需要自己设计 class,就更不用提什么 decorator, metaclass, asyncio 了,C++ 只要求看懂框架代码当中核心的部分,只有很少的人需要去修改 C++ 代码。

这里头真正有点挑战的,是要熟练掌握 Python 标准库和一些流行包中的 API 用法,快速完成数值计算、数据清洗、数据可视化等工作,这是需要时间去熟悉和掌握的。但有经验的人知道,这些可以边做边熟悉,不是什么硬约束。如果你在“城头变幻大王旗”的开发界混过几年,转行搞 AI,你的编程能力绝对是下山猛虎,完全不必担心。你真正要过的,就是数学关。只要你过了数学这关,后面将数学理解、工具框架、数据资源和应用结合起来形成正向循环,就可以一步一步的攀爬 AI 的高峰了。

说起来现在有一个深度学习真正变现了的领域,就是广告和推荐,但所有需要这个的公司都成立了自己的团队,没有创业的窗口。在模型共享化的今天,许多方面的技术壁垒已经被无限降低,许多所谓 AI 创业公司都只是拿公开的模型来调而已(然后向投资者大吹技术实力)。

可控核聚变、量子计算机、强人工智能,是目前意义最大的三个技术领域。但是都没有头绪,什么时候能突破完全没法估计,有时会说要50年,等50年过去还是要50年,其实就是说不知道要多久。

到目前为止,人工智能虽然在下棋、图像识别、自动驾驶等多个领域取得了令人印象深刻的成就,但都只是“人工”的结果,完全是人类自身的智力活动成果。“机器智能”的进展并没有想象的那么大,甚至可以说毫无进展,机器本身没有任何智能。

从程序开发的角度看,如果先不管这些人工智能程序最终的效果,它们只不过是一些算法思想与程序代码,并没有任何特殊之处。代码是程序员一行行编写、修改、调试出来的,程序中用到的数据不管有多少,都是开发者有意识地收集、生成、维护的。如果告诉程序员群体,这里有一个程序,它的代码是这些,数据是那些,它的功能是对给定的输入产生期望的输出,没有任何一个程序员会感到奇怪,因为所有程序都是这样的,利用电脑的存储与数学运算能力,设计算法写代码实现,让输入的数据得到预想的输出;

虽然说是“机器”在学习,其实机器仍然和过去一样,做的是数据存储、数学运算,没有本质区别。所有机器学习技术的共同特征是,电脑存储了一些“系数”,这些系数是“神经网络”、“分类器”等数学结构中可变的部分,开发者让电脑程序执行或多或少的“样本”进行“训练”,得到正确或者错误的输出,根据结果回头去正向负向改变这些系数。近年来的新趋势是:

1. 系数数量越来越多,多达上百M,比程序代码行数还要多得多。组成的数学结构越来越复杂,如以前简单的三层神经网络,发展成十几层甚至上百层的多层“卷积神经网络”。各种新型的数据网络结构层出不穷,非常活跃。

2. 用于训练的样本数量,从过去的几百、几千,发展到几十万、上百万个。训练需要的时间越来越长,需要GPU、机器学习专用芯片等新式的硬件支持,过去的硬件跑不动训练了。

3. 训练样本,过去是人工收集、人工标注正确输出,现在发展到机器自我“强化学习”。如AlphaGo进行海量的自我对局,生成几千万个样本,回头用于神经网络训练。也有些样本是程序在互联网上用“爬虫”自动收集的。因此,机器学习有时需要海量的服务器支持,可能需要十万个以上,有实力的公司才做得了。

4. 研究者群体在机器训练方法上取得了突破,对于很复杂的数学结构、海量的样本,想出了“深度学习”这样的办法。在语音识别、图像识别等多个领域,最终效果甚至可以超过人类的水平,在指标效果上比过去有了重大突破。程序识别率指标突破临界点以后,就会对产业产生爆发式冲击。如语音识别几十年来都在研发,准确率一直在提升,但都不温不火。但这两年来准确率足以实用了,一下就爆发了。

现在的人工智能程序,全是人写出来的。机器自我生成数据训练神经网络数据也是人让它做的,代码不会变,程序输入输出的目的不会变。人类只是没法理解几百M的神经网络数据黑箱子,说不清楚为什么就挺厉害了,但并不是不了解它。了解多的研究者会知道黑箱子有时会出一些离谱的错误,如将完全没有意义的混乱图片认成一只猫。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容