何为脚踏实地?
到底做什么算是入行 AI
三个角色:算法、工程、数据
算法
日常
算法工程师:读论文&实现算法-确认是否可以落地,是否可以改善产品的质量
必备能力
- 具备良好的英语基础,大量阅读英语论文的能力
- https://arxiv.org ——这里有多个学科(包括 computer science)大量的最新论文。
- 平均每周读一篇最新论文的频率
自测算法力
有个很简单的验证方法:现在就去 https://arxiv.org 找一篇论文(比如这篇:Dynamic Routing Between Capsules),从头到尾读一遍。现在不懂没关系,至少先试试在不懂的情况下能不能把它从头到尾一字不漏的读完,有不认识的字查字典。
学术实践能力
读懂论文:
- 回溯学习能力
- 数学能力
- 理论联系实际,将学术论述与产品、业务结合的能力
- 负责实际业务问题到数学模型的抽象
创新型人才
不用发明,但是懂得使用算法解决不同的问题
做工程
日常工作
典型的工位:机器学习工程师(调参工程师)
注:用已知有效的方法来解决实际问题
软件工程师的分支
说到底,开发人工智能产品的程序员还是程序员
程序员的基本素质
- 编码能力
- 基础算法能力
- 链
- 树
- 图的构建
- 删除
- 遍历
- 排序
最基本的首先是一个合格的程序员
做工程,「机器学习」学到多深够用
算法
- 简单使用:了解算法的基本原理,应用领域,功能和局限
- 该算法的应用领域是什么
- 该算法的应用目标是什么
- 该算法的合适应用在怎样的数据集会造成什么样的影响
- 能够获取该算法的函数库,调用该算法生成模型
- 模型调优:对所采用算法和对应模型的数据公式有所了解
- 知道调用函数各个参数的意义
- 能够通过加约束条件来优化
- 了解当前问题域,目标和输入数据确定的情况下,还可以用那些其他模型可替换现有模型,并进行尝试。
- 能够多个模型弱模型加权组成强模型
- 运行效率优化:对模型本身的数学推导过程和模型最优化方法有所掌握,对于各种最优化方法的特点、资源占用及消耗情况有所了解。
- 了解算法在当前数据集上的运行效率
- 了解在其他语言、平台、框架的工具包中有否同等或近似功能但在当前应用场景下效率更高的算法
- 能够针对具体场景,通过转换模型的最优化方法(optimizer)来改进运行效率。
- 该算法的应用领域是什么
数据
* 具有业务含义的信息
* 运算的数字
- 特征选取:从业务角度区分输入数据包含的特征
- 对数据本身和其对应的业务领域有所了解。
- 能够根据需要标注数据。
- 知道如何从全集中通过划分特征子集、加减特征等方法选取有效特征集。
- 向量空间模型(VSM)构建:了解如何将自然语言、图片等人类日常使用的信息转化成算法可以运算的数据。
- 能够把文字、语音、图像等输入转化成算法所需输入格式
- 能够根据信息熵等指标选取有效特征。
- 数据清洗和处理:对直接的业务数据进行筛选并转换为模型可处理
- 能够运用统计学方法等 ETL 手段清洗输入数据。
- 能够对数据进行归一化(normalization), 正则化(regularization)等标准化操作。
- 能够采用 bootstrap 等采样方法处理有限的训练/测试数据,以达到更好的运算效果。
模型验证
模型问题:
- 这个模型的质量如何?
- 这个模型的那个模型比较,哪个更适合解决当前问题
- 在做了如此这般的优化之后得出了一个新的模型,怎么能确认它比旧的模型好?
解决模型问题:
- 了解 bias,overfitting 等基本概念,及针对这些情况的基本改进方法。
- 了解各种模型度量指标(e.g. Accuracy, Precision,Recall, F1Score……)的计算方法和含义,及其对模型质量的影响。
- 能够构建训练集、测试集,并进行交叉验证。
- 能够运用多种不同的验证方法(e.g. 2-Fold cross-validation,K-Fold cross-validation, Leave-One-Out cross-validation……)来适应不同的数据集。
做数据
最主要的数据标注
- ETL
- 处理数据
标注数据的重要性
虽然有无监督学习,但是证明有直接用途的还是有监督学习。
深度学习在应用上比较成功:
- 图像处理
- 语音处理
- NLP
- 自动翻译
- AlphaGo
上述都是依赖于海量的标注数据
现阶段而言,数据比算法重要!重点:
数据人工标注的重要性
对人类真正有用的模型,还是需要人工标注的训练数据。
人工标注数据仍然是 AI 落地的必要和主流
人工智能的“勤行”
- 什么是标注
- 核心一点:标注就是将原始数据内全部或者部分内容,按照业务需求打上定义好的标签。
- 数据标注的日常工作
- 给各种各样的数据(文本、图像、视频、音频)打上标签
- 数据标注的难点
- 数据的整体一致性,以及与业务的集合
- 数据一致性:所有数据的标注原则一样
- 与业务的结合:这是最重要的落地相
- 数据标注的潜力
- 数据对模型的影响远胜于算法
- 数据标注的职业发展
- 如何根据业务设定标注原则
- 如何快速统一地实现标注原则
- 数据标注职业的提升路径:经验 业务 管理:
- 通过实践积累数据标注的工作经验
- 深入理解业务需求并将其体现到数据的标注结果中
- 管理标注团队达到高效的标注结果与业务变更 align
认清形势,脚踏实地
我们要做的就是:认清市场当前的需求,了解不同层次人才定位,并结合自己实际寻找一条可行之路