1.什么是机器学习?
在训练集上产生算法,在测试集上产生模型。通过对经验(历史数据)的利用对新情况(新数据)做出有效决策。
2.机器学习与统计模型的区别?
机器学习属计算机科学和人工智能的一个分支,数据处理广度和深度大,预测和学习可以同时进行。通过数据学习构建分析系统,不依赖明确构建规则,不依赖假设,减少了人力投入,预测效果好。
统计模型属数学分支,用于发现变量之间相关关系从而预测输出。其依赖于参数估计,要求模型建立者提前知道或了解变量之间的关系。一般应用在较少的数据量和较窄的数据属性上。
二者工作类似,其边界越来越模糊,专业术语有很强的相似性:
machine learning ‖ statistics
network graphs ‖ model
weights ‖ paramaters
learning ‖ fitting
generalization ‖ test set performance
supervised learning ‖ density estimation clustering
3.机器学习与统计学的联系
统计学的研究成果经由机器学习行成算法进而展开数据挖掘。
4.三大关键技术
机器学习(数据分析)、云计算(数据处理)、众包(数据标记)
5.基本术语
记录=示例=样本=特征向量
数据集=记录的集合
数据集包含训练集和测试集
属性=特征
维数:属性的个数
属性空间=样本空间=输入空间
标记空间=输出空间
映射关系:输入空间-输出空间
属性空间-标记空间
标记=训练样本的结果
样例=拥有标记信息的示例
学习=训练
模型=学习器
有监督学习=训练数据有标记信息
有监督学习包括分类(预测离散值)和回归(预测连续值)
无监督学习=训练数据无标记信息
聚类属于无监督学习
范化:从特殊到一般的归纳
广义归纳:从样例中学习
侠义归纳:从训练数据中学得概念
概念学习:常用技术“黑箱模型”,基本技术是布尔概念学习
范化能力:学得模型适应“新样本”的能力
假设:学得模型对应数据的潜在规律
学习过程:在假设空间中搜索与训练集匹配的假设
假设空间搜索策略:
自顶向下,从一般到特殊。不断删除与正例不一致的假设
自底向上,从特殊到一般。不断删除与反例一致的假设
操作上,自顶向下和自底向上可同时进行
版本空间:与训练集一致的“假设集合”(通常现实基于有限样本训练集面临很大的假设空间)
深度学习狭义论=“很多层”的神经网络