热身课-入行 AI,选个脚踏实地的岗位 重点笔记

何为脚踏实地?

到底做什么算是入行 AI

三个角色:算法、工程、数据

算法

日常

算法工程师:读论文&实现算法-确认是否可以落地,是否可以改善产品的质量

必备能力

  • 具备良好的英语基础,大量阅读英语论文的能力
  • https://arxiv.org ——这里有多个学科(包括 computer science)大量的最新论文。
  • 平均每周读一篇最新论文的频率

自测算法力

有个很简单的验证方法:现在就去 https://arxiv.org 找一篇论文(比如这篇:Dynamic Routing Between Capsules),从头到尾读一遍。现在不懂没关系,至少先试试在不懂的情况下能不能把它从头到尾一字不漏的读完,有不认识的字查字典。

学术实践能力

读懂论文:

  1. 回溯学习能力
  2. 数学能力
  3. 理论联系实际,将学术论述与产品、业务结合的能力
    1. 负责实际业务问题到数学模型的抽象

创新型人才

不用发明,但是懂得使用算法解决不同的问题

做工程

日常工作

典型的工位:机器学习工程师(调参工程师)

注:用已知有效的方法来解决实际问题

软件工程师的分支

说到底,开发人工智能产品的程序员还是程序员

程序员的基本素质

  • 编码能力
  • 基础算法能力
    • 图的构建
    • 删除
    • 遍历
    • 排序

最基本的首先是一个合格的程序员

做工程,「机器学习」学到多深够用

算法

  • 简单使用:了解算法的基本原理,应用领域,功能和局限
    • 该算法的应用领域是什么
      • 该算法的应用目标是什么
      • 该算法的合适应用在怎样的数据集会造成什么样的影响
      • 能够获取该算法的函数库,调用该算法生成模型
    • 模型调优:对所采用算法和对应模型的数据公式有所了解
      • 知道调用函数各个参数的意义
      • 能够通过加约束条件来优化
      • 了解当前问题域,目标和输入数据确定的情况下,还可以用那些其他模型可替换现有模型,并进行尝试。
      • 能够多个模型弱模型加权组成强模型
    • 运行效率优化:对模型本身的数学推导过程和模型最优化方法有所掌握,对于各种最优化方法的特点、资源占用及消耗情况有所了解。
      • 了解算法在当前数据集上的运行效率
      • 了解在其他语言、平台、框架的工具包中有否同等或近似功能但在当前应用场景下效率更高的算法
      • 能够针对具体场景,通过转换模型的最优化方法(optimizer)来改进运行效率。

数据

* 具有业务含义的信息
* 运算的数字
  • 特征选取:从业务角度区分输入数据包含的特征
    • 对数据本身和其对应的业务领域有所了解。
    • 能够根据需要标注数据。
    • 知道如何从全集中通过划分特征子集、加减特征等方法选取有效特征集。
  • 向量空间模型(VSM)构建:了解如何将自然语言、图片等人类日常使用的信息转化成算法可以运算的数据。
    • 能够把文字、语音、图像等输入转化成算法所需输入格式
    • 能够根据信息熵等指标选取有效特征。
  • 数据清洗和处理:对直接的业务数据进行筛选并转换为模型可处理
    • 能够运用统计学方法等 ETL 手段清洗输入数据。
    • 能够对数据进行归一化(normalization), 正则化(regularization)等标准化操作。
    • 能够采用 bootstrap 等采样方法处理有限的训练/测试数据,以达到更好的运算效果。

模型验证

模型问题:

  • 这个模型的质量如何?
  • 这个模型的那个模型比较,哪个更适合解决当前问题
  • 在做了如此这般的优化之后得出了一个新的模型,怎么能确认它比旧的模型好?

解决模型问题:

  • 了解 bias,overfitting 等基本概念,及针对这些情况的基本改进方法。
  • 了解各种模型度量指标(e.g. Accuracy, Precision,Recall, F1Score……)的计算方法和含义,及其对模型质量的影响。
  • 能够构建训练集、测试集,并进行交叉验证。
  • 能够运用多种不同的验证方法(e.g. 2-Fold cross-validation,K-Fold cross-validation, Leave-One-Out cross-validation……)来适应不同的数据集。

做数据

最主要的数据标注

  • ETL
  • 处理数据

标注数据的重要性

虽然有无监督学习,但是证明有直接用途的还是有监督学习。

深度学习在应用上比较成功:

  • 图像处理
  • 语音处理
  • NLP
  • 自动翻译
  • AlphaGo

上述都是依赖于海量的标注数据

现阶段而言,数据比算法重要!重点:

数据人工标注的重要性

对人类真正有用的模型,还是需要人工标注的训练数据。
人工标注数据仍然是 AI 落地的必要和主流

人工智能的“勤行”

  • 什么是标注
    • 核心一点:标注就是将原始数据内全部或者部分内容,按照业务需求打上定义好的标签。
  • 数据标注的日常工作
    • 给各种各样的数据(文本、图像、视频、音频)打上标签
  • 数据标注的难点
    • 数据的整体一致性,以及与业务的集合
    • 数据一致性:所有数据的标注原则一样
    • 与业务的结合:这是最重要的落地相
  • 数据标注的潜力
    • 数据对模型的影响远胜于算法
  • 数据标注的职业发展
    • 如何根据业务设定标注原则
    • 如何快速统一地实现标注原则
    • 数据标注职业的提升路径:经验 业务 管理:
      • 通过实践积累数据标注的工作经验
      • 深入理解业务需求并将其体现到数据的标注结果中
      • 管理标注团队达到高效的标注结果与业务变更 align

认清形势,脚踏实地

我们要做的就是:认清市场当前的需求,了解不同层次人才定位,并结合自己实际寻找一条可行之路

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容