机器学习 Machine Learning
机器学习与人工智能
图像识别是机器学习一个很重要的分支
语音识别 科大讯飞
自动驾驶 (Google 特斯拉)
医疗智能诊断
智能翻译 (拍照翻译 1图像识别 2自然语言处理 3翻译 Google翻译远远超过百度翻译 神经网络 一段话结合语境)
数据挖掘 eg:逛淘宝留下浏览记录
人工智能领航者
为什么机器学习人工智能这两年发展这么快?
- 大数据时代
数据量特别特别大
速度快 数据吞吐量非常大 能不能及时处理这些数据和公司的前途息息相关
多样性 很多可以挖掘发展的
价值 能不能从中挖掘到有用价值 不是取决于模型的优化 而且取决于数据量 - 硬件发展
Google: GPU 为 tensorflow服务 神经网络 - 深度学习
基于大数据时代应运而生的一门技术 - 大规模的并行计算
什么是机器学习
机器学习(machine learning): 是通过算法,使用历史数据和资料进行训练,训练完成后产生模型。未来当有新的资料的时候,我们可以使用训练产生的模型进行预测。
机器学习:特征(feature)和标签(label)
比如预测明天是否下雨。
特征:湿度,风向,风俗,季节,气压
标签:0:不会降雨;1:会降雨
- 监督学习(有标签)(Supervised learning):
回归分析(regression)
统计分类(classification): 二分类 多分类 - 非监督学习(无标签)(Unsupervised learning):
聚类(clustering)
降维(dimension个 reduction)
异常检测(anomaly detection) - 强化学习(Reinforcement learning)
机器学习之统计回归
回归分析
- 预测输入变量与输出变量的关系
- 输出变量是连续的
- 一元回归与多元回归
一元:一个变量
多元:多个变量 - 线性回归与非线性回归
线性:最小二乘法
非线性:核方法,树类方法 - 算法:线性回归,支持向量机,树类算法,神经网络
机器学习之分类
分类问题
- 输出变量是离散的
- 输出变量的多少
二分类、多分类 - 精确率
- 召回率
- 算法:k近邻,感知机,朴素贝叶斯,决策树,逻辑回归,支持向量机,神经网络
风险评估:根据客户情况,决定是否贷款
图像识别:分析图像,判断图像中是否有人脸出现
垃圾邮件检测:判断一封邮件是否为垃圾邮件
智能医疗诊断:判断是否为恶性肿瘤
机器学习之聚类
聚类:把相似的对象通过静态分类的方法分成不同的组别或更多的子集。同一个子集的成员都有相似的属性。
算法:K均值,高斯混合聚类,密度聚类,层次聚类
商业:定义客户类型,刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
生物:动植物分类对基因进行分类,获取对种群固有结构的认识。
保险:聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。
社交:社交网络的挖掘
机器学习之推荐
推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:
- 将与用户购买的内容近似的物品推荐给用户。对物品贴上多个标签
- 基于用户相似度的推荐,则是将与目标用户兴趣相同的其它用户购买的东西推荐给目标用户
机器学习流程:
数据提取(ETL) >> 数据清洗(Feature cleaning) >> 特征工程(Feature engineering) >> 训练模型(Training model) >> 验证模型优化模型(validation)
- 机器学习并不是万能的,但没有机器学习是万万不能的!
- 数据清洗是实现机器学习算法的必要前提
- 特征工程是提升模型强度的关键因素
- 多种方法让机器学习的算法泛华能力增强
机器学习之大数据
机器学习:利用数据价值的最核心技术!
数据量越大 准确率越高
Hadoop & Spark echosystem
把数据切片分成很多小部分,分到单机中处理做并行运算。
数据拷贝成3份或多份存在硬盘里,保证数据不丢失。
机器学习之数据科学之路
数理统计:
- 概率论与统计:假设检验,概率分布,贝叶斯理论,极大似然估计....
- 线性代数:矩阵的操作
- 微积分:极值,优化问题,偏导数,梯度....
编程语言与算法: - 编程语言:R & Python(C++,Java...)
数据分析和挖掘:Python,R
数据工程师:Java,Python
钻研算法框架:C++,Python - 数据结构
- 算法
- 巩固数理统计基础。熟悉机器学习的算法知识
- 熟练掌握至少一门编程语言
- 学习数据结构与算法相关知识,锻炼编程能力
- 积极参加数据科学竞赛(如kaggle)和数据科学相关的项目磨练自己
机器学习 - 理解与实战
监督学习
- 分类问题:输出位离散值的问题
明年会不会涨工资
能不能申请到想去的学校
中国足球队能不能赢得比赛
这张图片是什么 - 回归问题:输出位连续值的问题
明年的工资是多少
明年的比特币价格是多少
活动会有多少人来
一切模型都是错的,但是有些模型有用
分类问题
问题描述:预测明年能不能申请到想去的学校
- 特征(条件):
成绩(GPA,排名)
本科/高中学校
科研成果/课外活动
TOEFL/GRE/SAT/GMAT分数 -
标记(结果)
拿到了
没拿到
回归问题(线性回归)
无监督学习
聚类学习
k-means算法
- 随机选取k个中心点,代表k个类别
- 测量每个数据到中心点的距离,并归类到距离最近的中心点对应的类别上
- 对每个类别的数据,计算出平均位置,更新k个中心点
- 重复2~3步骤,直到系统收敛
神经网络
深度学习的发展与应用
- 深度神经网络
- 深度学习的应用
-
实际应用案例
神经网络简介
- 1943 McCulloch-Pitts神经元模型
- 1956 感知机(Perceptron) [(第一个可以学习的模型) (线性)]
- 1986 分布式表示 -- 深度学习之父 hinton
- 1986 反向传播算法
- 1994 长短记忆网络
- 2006 深度信念网络 -- hinton
- 2007 卷积神经网络
解决图片识别问题
h 降低参数 防止过拟合
深度学习的应用:
海狮的种类,成年幼年等
农作物的期货,收成
露天停车位数量 - 沃尔玛销量
客服
人工智能用在没有创意的格式化的工作上 实现自动化
如何学习深度学习
- 数学
线性代数
微积分
凸优化/计算方法
概率论 - 机器学习
- 编程
算法和数据结构
Python - 深度学习
Deep Learning,lan Goodfellow,Yoshua,Bengio,etc.
论文
实战数据挖掘与机器学习
数据分析与数据科学的职业发展
数据相关职业岗位解析
-
数据分析师
市场分析师,产品经理,数据分析师 -
数据科学家
数据科学家,数据科学算法工程师 -
数据工程师
大数据工程师,数据工程架构师
职业能力要求
Python SQL(数据库的操作)
学习数据分析和数据科学的要点
学会分析商业需求,
以项目实践为手段,
熟练应用已有工具,
锻炼持续学习能力。
推荐书籍:数据科学入门, 利用Python进行数据分析
pd.DataFrame?
Google
百度
Stackoverflow
知乎
- 动手实际操作
熟悉工具使用 - 着重项目实践
能实习尽量实习
参加数据竞赛 - 与人为善,与人为伴
锻炼沟通与表达能力
团队协调能力
持续学习能力
UCI数据库
Kaggle数据库 (Kaggle:全球最大机器学习算法竞赛平台 数据量特别大)
天池 (阿里)
DataCastle 成都一家公司创建的竞赛平台 信贷风险
最后,献上福利: