LR文本分类

LR参数分析

LogisticRegression(penalty=’l2’, C=1.0, class_weight=None, solver=’liblinear’, max_iter=100)
  1. C的系数是对损失函数的惩罚

  2. 默认求解策略(solver)是用的liblinear, 迭代次数100

    1. liblinear(坐标下降法, coordinate descent)

      image
      1. 定义: 沿一个方向(变量)移动, 当目标函数不在下降时换另一个变量, 遍历完所有变量为一圈
      2. 适用: 目标函数不可微, 特征少(特征多用梯度下降, 梯度下降沿目标函数下降最快的方向移动)
      3. 广泛应用于L1_norm
    2. sag(随机梯度下降法, Stochastic Average Gradient descent )

      1. 对大样本, 大特征支持较好
      2. 不支持L1_norm
    3. saga

      1. sag的变体, 支持L1_norm, 即支持稀疏多项式回归的计算方法
    4. 对于文本分类, 样本较大, 特征较高, 特征稀疏

      • 则使用的是saga+L2_norm

NB-LR

先从贝叶斯角度判断这个特征的可信度是否较高, 然后再使用SVM进行分类

NB计算特征的置信度
$$
r = log(\frac{p / ||p||_1}{q / ||q||_1})
$$

说明

  • 分子: 标签取1中特征取1的比率
  • 分母: 标签取0中特征取1的比率

原理

  1. 标签为1中特征取1的比率 比上 标签为0中特征取1的比率, 取对数, 得到特征的一个置信度, 作为模型的输入
  2. 这个置信度是对特征的一个标准化, 当使用L2时, 会对权值进行限制, 此时相当于加大了对置信度高的贡献
  3. 与tf-idf的比较, 其作用恰好相反, 所以tf-idf在文本分类上效果并不好
  4. 思考: LR+L2模型通过特征缩放加大特征的权重

nb_norm代码

def nb_norm(x_train, y_train, x_test):
    """ nb norm feature
        An Classifier is built over NB log-count ratios as feature values
            https://www.kaggle.com/jhoward/nb-svm-strong-linear-baseline-eda-0-052-lb
            paper: https://nlp.stanford.edu/pubs/sidaw12_simple_sentiment.pdf
    """
    from scipy.sparse import csr_matrix

    def pr(x, y_i, y):
        p = x[y == y_i].sum(0)  # 标签取1/0中, 特征取1的个数
        return (p + 1) / ((y == y_i).sum() + 1)  # 标签取1/0中, 特征取1的比率; 1: smooth term
    """
    classifier is built over NB log-count ratios as feature values.
    r = log(p(x=1|y=1) / p(x=1|y=0)) // 作为特征
    思想: 先从贝叶斯角度判断这个特征的可信度是否较高, 然后再使用SVM进行分类
    ---
    标签为1中特征取1的比率 比上 标签为0中特征取1的比率, 取对数, 得到特征的一个置信度
    这个置信度相当于是对特征的一个标准化, 当使用L2时, 较大权值会受到抑制
    而较高的特征值相当于加大了对模型的影响, 相当于加大了特征的权重
    同样的思想可对比tf-idf文本特征的抑制作用
    """
    r = np.log(pr(x_train, 1, y_train) / pr(x_train, 0, y_train))
    r = csr_matrix(r)
    x_train = x_train.multiply(r)
    x_test = x_test.multiply(r)

    return x_train, x_test

bow vs tf-idf vs word2vec

  1. 为什么不使用tf-idf
    1. tf-idf反映了词语相对权重(tf: 在该文档出现的频率(重要度), idf: 在多少个文档中出现(普遍度))
    2. 在分类问题中, 如果使用全部的数据作为语料, 那么对于单个词语
      1. 逆文档频率是相同的(纵向上), 所以对于样本的区分度不影响, 但是增加了量纲(对正则的影响)
      2. 出现越多的词语取值较少(横向上), 当使用正则时, 会使得对应的权值更大, 加大了正则项带来的损失, 抑制出现较多的词语
      3. 然而在正负面评价中, 关键词的逆文档频率都是很高的, 所以并不适用
  2. 为什么不使用word2vec
    1. word2vec是把每个词语转换为一个向量(向量化), 保留了词语之间的局部关联性, 使词语具有计算特性(相似度)
    2. 丢失信息(降维)
      1. 把10w的词语用300维的向量进行表达, 虽然增加了局部信息, 但是丢失了本身的一些信息
      2. 可使用max, min, mean生成一句话的特征, 增加了泛化, 更进一步丢失了词语本身的信息
      3. 我们需要文本的上下文信息吗? 需要, 但是多元词袋模型能够解决这个问题
  3. 为什么BOW
    1. 简单, 计算快
    2. 特征为0-1取值, 可是用NB-LR + L2

文本特征选择

  1. 卡方检验
  2. 信息增益
  3. 互信息

思考

在使用LR进行文本分类的时候, 最主要的是如何解决特征之间的非线性关系

  1. 多元特征模型
  2. boosting
  3. nb-norm
  4. 去除非线性特征

参考:

坐标下降法

https://www.zhihu.com/question/29900945

https://blog.csdn.net/u013802188/article/details/40476989

nb-svm

https://nlp.stanford.edu/pubs/sidaw12_simple_sentiment.pdf

https://www.kaggle.com/jhoward/nb-svm-strong-linear-baseline-eda-0-052-lb

文本特征选择

https://blog.csdn.net/lk7688535/article/details/51322423

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • ML & DM 集成学习 模型融合 ensemble http://wakemeup.space/?p=109 E...
    章鱼哥呀阅读 1,791评论 0 6
  • TF API数学计算tf...... :math(1)刚开始先给一个运行实例。tf是基于图(Graph)的计算系统...
    MachineLP阅读 3,431评论 0 1
  • 怀萌宝在肚子里的时候,某晚做梦,梦见一条白色巨蟒盘踞在妈妈床头,安静而灵动。后还梦见浑身黑漆漆的猫。闺女出生,确实...
    梦的水月星空阅读 270评论 0 0
  • 有一瞬间,Afra忽然不清楚自己身在怎样的时间里。 漫天的黄沙将天地搅成一片令人眩晕的混沌;游走在身侧的热意化作粘...
    药赤阅读 451评论 0 1