1.完成JTK分析的脚本
用了大概一上午的时间,复习困扰了很久的简谐运动,但是最后的公式还是不确定对不对
2.graphite包
主要功能
1.可以
ID转换:还没有测试,但是它自己说不能做到100%识别,ID转换问题在生物数据中是一个大问题,直接决定了分析的全面性和精准性.
3.《机器学习实战》
开始读《机器学习实战》
1.机器学习定义
如何让计算机不需要明确的程序也能具备学习的能力
2.机器学习的分类:
按是否监督: 监督式学习,无监督式学习,半监督式学习,强化学习
是否可以动态地进行增量学习: 在线学习 , 批量学习
基于示例还是基于模型
3.详解机器学习分类
监督式学习:
分类和回归是典型的监督学习
主要有:
1.k-邻近算法
2.线性回归
3.逻辑回归
4.支持向量机啊
5.决策树和随机森林
6.神经网络
无监督式学习:(其中很重要的应用是异常检测,比如信用卡异常交易)
主要有: 聚类, 可视化和降维 , 关联规则学习
聚类 (比如给你的博客访客分类,以便有针对性的发布内容)
k-平均算法
分层聚类分析
最大期望算法
可视化和降维 (在降维过程中,将两个非常相关的变量合并成一个.这个过程叫特征提取)
PCA
核主成分分析
局部线性嵌入(LLE)
t-分布随机近邻嵌入(t-SNE)
关联规则学习 (这两个都没听过.比如挖掘超市买烧烤酱和薯片的人更倾向买可乐,挖掘数据的联系是关联学习的目的)
Apriori
Eclat
总结无监督学习:主要用用于异常检测,聚类,降维和挖掘数据联系
半监督式学习:
通常是大量未标记的数据和少量标记数据,大多数半监督式学习都是无监督和有监督的结合.比如手机相册中的识别问题,首先手机会使用无监督的聚类识别出那些头是一个人,然后用户给这些结果命名,之后系统就可以自动命名照片中的头像(感觉90%是无监督学习)
强化学习:
强化学习的学习系统可以观察环境,做出选择,执行操作,并获得回报或是负面回报的惩罚.它必须自行学习什么是最好的策略,从而随着时间推移获得最大的回报.AlphaGo是强化学习的好例子.
批量学习
系统无法进行增量学习,必须使用所有可用数据进行训练,通常都是离线完成.缺点很明显,所以有更好的选择就是增量学习
在线学习
首先一点是,训练过程通常是离线完成的,可以将其视为增量学习.在在线学习中,可以循序渐进地给系统提供训练数据,逐步积累学习成果.所以系统可以根据飞速写入的最新数据进行学习.
而对于超大数据,我们要设置学习率,太大不行会很快覆盖掉曾经的模型,太小模型会有惰性,还有一个挑战就是不良数据.这个就需要实时的监控了.
基于实例的学习
说白了就是死记硬背,系统先记住学习示例,然后通过某种相似度度量方式将其泛化到新的示例.比如记住一个垃圾邮件,下次有一样就认识了
基于模型的学习
构建这些示例的模型,然后用模型去预测.比如想用GDP去预测幸福指数,拿到样本后构建线性回归模型,用模型去套新的数据,从而得到预测的幸福指数.
一些零碎的机器学习知识
Grid Search:一种调参手段;穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。
曼哈顿距离:是直角过去的,也就是假设斜前面有障碍物,必须正南正北的走
欧氏距离:直线距离