天天随手记,持续更新中(2018-05-02)

  1. 降维方法:
  • principal component analysis
  • conical correlation analysis
  • singular value decomposition
  1. 原始数据预处理,三步骤
  • data preprocessing
  • feature engineering
  • feature selection;其中特征选择又有3方法,即
    - filter;select the best subset
    - wrapper; generate a subset---->learning algorithm 循环;
    - embedded method; generate a subset---->learning algorithm + performance 循环;
  1. The process of machine learning机器学习步骤


    image.png
  2. Some classification algorithms

  • nearest neighbour
  • Linear svm
  • RBF svm
  • Gaussian process
  • decision tree
  • random forest
  • neural net
  • ada boost
  • naive bayes
  • QDA


    image.png
  1. 几种算法
    A. Regression

    • Ordinal Regression序数回归: data in rank ordered categories
    • Poisson Regression: predicts event counts
    • Fast forest quantile regression: predicts a distribution
    • Linear regression: fast training, linear model
    • Bayesian linear regression: linear model, small data sets
    • neural network regression: accurate, long training times
    • decision forest regression: accurate, fast training times
    • boosted decision tree regression: accurate, fast training times, large memory footprint
      B. Clustering
    • K-means: unsupervised learning
      C. Anomaly detection 异常检测
    • PCA-Based Anomaly detection: fast training times
    • Two-class classification: under 100 features, aggressive boundary
      D. Two-class classification
    • two-class SVM: under 100 features, linear model
    • two-class averaged perceptron: fast training, linear model
    • two-class bayes point machine: fast training, linear model
    • two-class decision forest
    • two-class regression
    • two-class boosted decision tree
    • two-class decision jungle
    • two-class locally deep SVM
    • two-class neural network
      E. Multiclass Classification
    • multiclass logistic regression
    • multiclass neural network
    • multiclass decision forest
    • multiclass decision jungle
    • one-v-all multiclass: depend on the two-class classifier
  2. Semi-supervised learning
    Between supervised learning and unsupervised learning; 少部分数据有label,大多数数据没有label; 有高准确率,且与supervised learning相比,它训练成本低很多。

  3. Reinforcement Learning增强学习
    从一系列动作中,学习到最大反馈方程,此处反馈方程可以是“bad actions”或“good action”; 增强学习常常用于自动驾驶中,即通过周遭环境的一系列反馈来做出决定。


    image.png
  4. 机器学习算法,分类图


    image.png
  5. 一个tip
    如果训练过程中,数据结果很好,但在评估阶段结果很差,那很有可能是overfitting了。

  6. 常用validation的三种方法

    • hold-out validation,预留校验数据;适用大数据样本

    • k-fold cross validation,将训练集分成k等份;适用小数据样本


      image.png
    • leave-one-out validation(LOOCV),特殊的k-fold交叉校验,重复直至每个观察样本都作为过了校验数据。

  7. 评估模型的几种方法


    image.png
  • A. accuracy(精确率), precision(查准率),recall(查全率)
    如何判断哪个模型效果最好,可以通过F score,相关定义方程如下:


    image.png

    F越大越好

  • B. ROC curves


    image.png

    image.png

    其中ROC 曲线图的优点是不受类分布(不平衡类分布)的 影响

  • C. AUC (area under curve)


    image.png

    其中,auc越高越好

  • D. R平方,coefficient of determination,【0,1】
    It is a standard way of measuring how well the model fits the data.


    image.png

    缺点是:R总是这增长,从不会减少,所以数据更多的模型,它的R值总是更大,就会认为该模型更好;此外,如果训练数据更高阶,那么噪声很容易被误认为待训练数据,即噪声参与了模型的训练

image.png
  1. 一个tip
    有时候一个准确率很高的模型并不能说它是有用的,比如,一个模型说99%无癌症,1%有癌症,这是一个样本分布不均匀的案例, 此时需要建立两个模型,模型A用来判定有癌症,模型B用来判定无癌症

  2. Bias和Variance问题
    underfit属于high bias
    overfit属于high variant
    判断模型的好坏的过程中,如果训练集效果很好,但是校验集不好,那么是high variance问题(即overfit);如果训练集和校验集效果都不好,那么是high bias问题(即underfit)。
    解决方法:


    image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 休息-- 每次休息时我会选择去郊区,空气清新、惬意,可以让自己慢下来,很好的去思考和整理。我在计划考哈他注册教练,...
    梅歌瑜伽阅读 164评论 2 2
  • 我一脸茫然不解,但张舒云并未继续解释,反而我想开口询问的时候,张舒云却用另外一只手凑到嘴边,做了一个不要说话的动作...
    下一年的秋天阅读 185评论 1 1
  • 18岁,记载着太多回忆,无数次希望自己不曾有过18岁,这样至少我依然幸福快乐心安,至少没有现在的低声下气和委屈求...
    轻烟醉影阅读 349评论 0 0
  • 关系操作符 小于(<),大于(>),小于等于(<=),大于等于(>=)这几个关系操作符用于对两个值进行比较。这几个...
    我拥抱着我的未来阅读 260评论 0 0