《Python Machine Learning》
做这个笔记,是为了让自己有个良好的记录习惯。
不然每次看了,都会忘记到底看到哪里呢?
并且中间产生的一些思考问题,可能过一会儿也就忘了。
其次,对于我这种数学基础这么垃圾的人来说,每次推公式,感觉很hard。那到底该如何彻底了解其原理呢,难道只能通过自己推公式去了解吗,盲目搜罗网上博客了解?
感觉ineffective。
总结也许是个好方法吧。
先来一个machine learning的roadmap吧:
Preprocessing data
1:直接将数据转化到[0,1]之间
2:0-1标准化
3:high correlated data需要降维
No Free Lunch Theorems
”天下没有免费的午餐理论“闻名于世,每个算法各有优缺点,若想得到好的结果总会有各种牺牲。
因此,在训练和选择模型方面,需要多次尝试不同的算法去验证,寻找最佳模型。
在选择之前,我们需要找到合适的metric performance,在小贷行业中通常选择Auc或者Ks值。
Perceptron(感知机)
以前看到感知机都是自觉跳过,因为几乎没见谁用过。做图像的时候没人用,现在做纯数据也没啥人用。在我的认知里,它毕竟还是机器学习内的小祖先。所以为了表达尊重,还是学习学习。
机器学习领域中几乎所有的算法公式核心是由损失函数和正则项组合。感知机模型也不例外,利用误差项作为损失函数,接着利用标准梯度函数或者随机梯度函数求解最优值。
(思考:哪一种情况考虑标准梯度或者随机梯度)