一,what is ml:
1:在进行特定编程的情况下,给与计算机学习能力的领域。这是较老的,不正式的定义 --Arthur Samuel
2:一个程序被认为可以从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P的评判,程序在处理任务T时性能有所提升 --Tom Mitchell
目前存在几种不同类型的机器学习算法,主要的为监督学习(Supervised learnnig)和无监督学习(Unsupervised learnnig),此外还有强化学习(Reinforcement learnnig)和推荐系统(Recommender systems)
监督学习(Supervised learnnig):我们将教计算机如何去完成任务
无监督学习(Unsupervised learnnig):我们打算让它自己进行学习
二 ,监督学习(Supervised learnnig):
1,导引:预测房价,收集数据集,其中一个数据集如图,若想买一个70英尺的房子
2,定义:给出一个算法,需要部分数据集已有正确答案。比如给定房价数据集里面每个数据,算法都知道对应的正确房价,算法的结果为算出跟多正确的房价
更准确的定义:监督学习又叫回归问题,意为预测一个连续值的输出,而术语回归意为预测这类连续值属性的种类
eg:房价(一般把房价记为美分单位,所以实际为离散值,但通常把它看作在实数轴上连续的一个标量,一个连续值的数)
eg2:医学记录,并预测胸部肿瘤为良性或者恶性的概率,假设有人发现了一个乳腺瘤,这个瘤就是一个收集好的数据集,假设在其中,横轴表示肿瘤的大小,纵轴圈上0或1,即是与否
这其实是一个分类问题,何为分类,分类就是要预测一个离散值的输出,在这个例子中就是0 or 1
补充:
在分类问题中,还有另外一种方式来描绘数据。如果肿瘤大小作为唯一属性被用于预测恶性良性,可以将数据图作成,使用不同符号表示良性恶性,所以改用符号,圆圈是良,叉是恶,要做的就是将上面的映射下来,图为
实际研究中,使用了其它更多的特征,如肿块的厚度,瘤细胞的尺寸的均匀向,相撞的均匀性等等
这表明了有趣的学习算法可以处理无穷多特征,不止5,6个特征,那么你要如何处理无穷多特征存储无数数据(后边的支持向量机)
监督学习中心思想:在监督学习中,数据集中的每个例子,算法将预测得到每个例子的“正确答案”
回归问题:回归是指我们的目标是预测一个连续的输出值
分类:分类是要预测一个离散值输出
习题:判断是分类问题还是回归问题,答案在最后
1,有1000件货物,想预测可以卖多少
2,判断1000个人里面感冒的人
三,无监督学习(Unsupervised learnnig)
1,引例:在上面的例子中,数据集每个样本给出正确答案,如肿瘤的正样本和负样本,而在无监督学习中数据集看起来有些不一样,没有属性(特征)或者标签在一概念,即所有数据都一样,无区别
,也就是给定一个数据集,让你来找出其中的某种结构。
2,定义:对于给定的数据集,无监督学习算法可以判断该数据集包含几种不同聚类,这就是聚类算法。聚类算法在生活中的应用很多,百度搜索出的东西。大型计算机集群,社交网络,对市场细分的方式等等
3,请下载octave,本系列中将要使用octave作为学习工具
使用octave作为学习开发的原型工具很爽的哦嘿嘿
4,习题判断属于无监督,还是监督:
请你回答,糖尿病病人诊断,百度查询的新闻,给一个城市某商品销售数据后的划分市场区域,邮件的判断
----------------------------------可爱的分割线------------------------------------------
回归 ,分类 ,监督,无,无,监督