简介
人工智能
人工制造出来的系统所表现出来的智能。人工智能的核心问题包括推理、知识、交流、感知、移动和操作物体的能力。
机器学习
通过算法,是机器能从大量历史数据中学习到规律,从而对新的样本做出智能识别或对未来做预测。
深度学习
机器学习的新领域。深度——是因为机器学习只是千层的学习,主要是基于概率、矩阵等知识而得出的结论。而深度学习所涉及的概念比较复杂,包括人工神经网络的研究等。
机器学习概述
机器学习概述
背景
图灵
发展现状
数据现状
Facebook
瓶颈:
- 数据产生和数据收集的瓶颈
- 采集到的数据和能被分析的数据之间的瓶颈
算法现状
模型的训练与识别、语义分析、文本情感分析、图像识别技术。
机器学习的基本概念
机器学习的流程
- 场景解析(想清楚业务逻辑)
- 数据预处理(数据的清晰工作,归一化、标准化)
- 特征工程
- 模型训练
- 模型评估
- 离线/在线服务
数据源结构
- 结构化数据(纯数字)
- 半结构化数据(带有字符串)
- 非机构化数据
算法分类
- 监督学习(进入算法的训练数据样本都有赌赢的期望值也就是目标值,进行及其学习的过程实际上就是特征值和目标值的映射过程——心脏病,海关问题。K近邻、朴素贝叶斯、决策树、随即森林、GBDT和支持向量机,回归算法:逻辑回归、线性回归。解释一下回归和分类的区别)
分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测; 回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。
- 无监督学习(训练样本不依赖达标数据的机器学习——聚类场景问题,因为确实目标列,能做的事情就只剩下对比不同样本间的距离关系。K-Means、DBScan)
- 半监督学习(最近几年比较流行,获得达标数据是非常耗费资源的,但是无监督学习对于解决分类和回归这样的场景问题又有一些难度,部分达标、部分给算法学习。标签传播算法)