DGB特征工程笔记

Code: https://github.com/SimonLliu/DGB_AlphaTeam

在本次比赛中,由于是采用传统模型的原因,特征工程占的比重较重,几乎占了比赛全部时间的70%。

采用的方法主要有如下:

1、经典文本特征

CountVectorizer、TfidfVectorizer、HashingVectorizer、Doc2Vec

2、用模型提取特征

LR提取重要特征、SVM提取重要t特征

3、特征降维

LSA特征降维、LDA特征降维(降维时间太长,放弃)

4、不同特征提取方法的组合、拼接

一、CountVectorizer

1、使用方法

官方文档:class sklearn.feature_extraction.text.CountVectorizer

(input=’content’encoding=’utf8’decode_error=’strict’strip_accents=Nonelowercase=Truepreprocessor=Nonetokenizer=Nonestop_words=Nonetoken_pattern=’(?u)\b\w\w+\b’ngram_range(11)analyzer=’word’

max_df=1.0min_df=1max_features=Nonevocabulary=Nonebinary=Falsedtype=<class ‘numpy.int64’>)

核心参数:

1) ngram_range词组切分的长度范围,划分了计算词频用的相邻的词的数量,

在本次比赛中选用了(1,1)(1,2)(1,3)(1,4)四个参数来提取特征,ngram_range的范围越大,提取时间越长,且时间增长非线性,建议若若数据量过大,不宜超过(1,3)

 2) max_df:可以设置为范围在[0.0 1.0]的float,也可以设置为没有范围限制的int,默认为1.0,含义为大于某一限度的词频忽略。

在比赛中试了不同的值,包括0.8、0.9、0.99,建议选择0.9,结果表现较好

3)  min_df:可以设置为范围在[0.0 1.0]的float,也可以设置为没有范围限制的int,默认为1.0,含义为小于某一限度的词频忽略。

在比赛中同样试了不同的值,包括0.01、0.1、3、5、10等,最终结果认为3较好

2、原理分析:

旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个Countvectorizermodel。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法如LDA。


由图可知,经过统计文章的词频,会生成一个三值向量,第一个值代表不同词的数量,第二个值对不同的词进行标记,第三个值为词频列表。

二、TfidfVectorizer

1、使用方法

官网文档:class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’encoding=’utf-8’decode_error=’strict’strip_accents=Nonelowercase=Truepreprocessor=Nonetokenizer=Noneanalyzer=’word’stop_words=Nonetoken_pattern=’(?u)\b\w\w+\b’ngram_range=(11)max_df=1.0min_df=1

max_features=Nonevocabulary=Nonebinary=Falsedtype=<class ‘numpy.int64’>norm=’l2’use_idf=Truesmooth_idf=Truesublinear_tf=False)

核心参数:

1) ngram_range同上

 2) max_df:同上

3)  min_df:同上

2、原理分析

我们需要一个重要性权值调整参数,来衡量一个词是不是常见词。因为不常见的词出现的频率越高,显然重要性越大,增加权重调整参数。

这个权重调整参数就是“逆文档频率”(IDF,Inverse Document Frequency),它的大小与一个词的常见程度成反比。

知道了 TF 和 IDF 以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。如果用公式来表示,则对于某个特定文件中的词语 titi 而言,它的 TF 可以表示为: 


其中 ni,j 是该词在文件 dj中出现的次数,而分母则是文件 dj 中所有词汇出现的次数总和。

某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数即可: 


其中,|D|是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目(即 ni,j≠0 的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1+|{j:ti∈dj}。

最后,便可以来计算 TFTF-IDF(t)=TF(t)×IDF(t)IDF(t)=TF(t)×IDF(t)。

三、HashingVectorizer

1、使用方法

官方文档:class sklearn.feature_extraction.text.HashingVectorizer(input=’content’encoding=’utf-8’decode_error=’strict’strip_accents=Nonelowercase=Truepreprocessor=Nonetokenizer=Nonestop_words=Nonetoken_pattern=’(?u)\b\w\w+\b’ngram_range=(11)analyzer=’word’n_features=1048576binary=Falsenorm=’l2’alternate_sign=Truenon_negative=Falsedtype=<class ‘numpy.float64’>)

核心参数:

ngram_range:同上

n_features:输出矩阵的列数,比赛中选用200,特征较小,大概为300M

2、原理分析

https://blog.csdn.net/mbx8x9u/article/details/78801282


四、Doc2Vec

1、使用方法(参考了Jian老师的代码)

from gensim.models.doc2vec import Doc2Vec, TaggedDocument

documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(texts)]

model = Doc2Vec(documents, vector_size=200, window=5, min_count=3, workers=4, epochs=25)

docvecs = model.docvecs

x_train = []

for i in range(0, 102277):

    x_train.append(docvecs[i])

x_train = np.array(x_train)

x_test = []

for j in range(102277, 204554):

    x_test.append(docvecs[j])

x_test = np.array(x_test)

2、原理分析

https://blog.csdn.net/Walker_Hao/article/details/78995591

五、利用模型提取特征

from sklearn.feature_selection import SelectFromModel

slt = SelectFromModel(lsvc, prefit=True)

x_train_s = slt.transform(x_train)

x_test_s = slt.transform(x_test)

SelectFromModel 是一个通用转换器,其需要的Model只需要带有conef_或者feature_importances属性,那么就可以作为SelectFromModel的Model来使用. 如果相关的coef_ 或者 featureimportances 属性值低于预先设置的阈值,这些特征将会被认为不重要并且移除掉。除了指定数值上的阈值之外,还可以通过给定字符串参数来使用内置的启发式方法找到一个合适的阈值。可以使用的启发式方法有 mean 、 median 以及使用浮点数乘以这些(例如,0.1*mean )。

https://blog.csdn.net/fontthrone/article/details/79064930

六、LSA特征降维

from sklearn.decomposition import TruncatedSVD

lsa = TruncatedSVD(n_components=200)

https://blog.csdn.net/mmc2015/article/details/46867773

核心问题在于奇异值分解,TruncatedSVD是SVD的变形,只计算用户指定的最大的K个奇异值,直接处理样本矩阵X

LSA降维后,特征大小大概在300M-500M

七、LDA特征降维

from sklearn.decomposition import LatentDirichletAllocation

lda = LatentDirichletAllocation(n_components=200)

x_train = lda.fit_transform(x_train)

https://blog.csdn.net/aws3217150/article/details/53840029

在这做两篇文章的记录:

《LDA数学八卦》

《Parameter estimation for text analysis》

八、不同特征提取方法的组合、拼接

1、将article和word_segment直接拼接。

article是达观数据提供的字符数据集,word_segment是达观数据提供的词数据集。

在首先尝试的时候,分别用Tf-idf提取特征,用线性模型svm和lr进行训练,结果都在0.76-0.776之间。

后思考到能否直接扩充训练数据集,遂将article和word_segment直接拼接。

df_train["word_seg"] = df_train["article"].map(str) + df_train["word_seg"].map(str)

df_test["word_seg"] = df_test["article"].map(str) + df_test["word_seg"].map(str)

在队友的服务器支持下,将 ngram_ranged调到1-4,训练时间大概将近一天,模型25GB,特征也有十几GB,测试结果达到了0.779

2、将article/word_segment的Hash、tf、doc2vec拼接

考虑到tf-idf的特征太大,遂不将tf-idf与其他特征融合

拼接的过程是先将hash、doc2vec转换成稀疏矩阵,再与tf-idf拼接

"""将numpy 数组 转换为 csr稀疏矩阵"""

x_train_1 = sparse.csr_matrix(x_train_1)

x_test_1 = sparse.csc_matrix(x_test_1)

x_train_2 = sparse.csr_matrix(x_train_2)

x_test_2 = sparse.csc_matrix(x_test_2)

x_train_3 = sparse.csr_matrix(x_train_3)

x_test_3 = sparse.csc_matrix(x_test_3)

x_train_4 = sparse.csr_matrix(x_train_4)

x_test_4 = sparse.csc_matrix(x_test_4)

"""读取tf特征"""

#f_tfidf = open('./data_tf_article.pkl', 'rb')

#x_train_3, _, x_test_3= pickle.load(f_tfidf)

#f_tfidf.close()

"""对稀疏矩阵进行合并"""

x_train_5 = hstack([x_train_1, x_train_2])

x_test_5 = hstack([x_test_1, x_test_2])

x_train_6 = hstack([x_train_5, x_train_3])

x_test_6 = hstack([x_test_5, x_test_3])

x_train_7 = hstack([x_train_6, x_train_4])

x_test_7 = hstack([x_test_6, x_test_4])

3、将从article_tf-idf中利用svm挑选出来的特征与将从word_segment_tf-idf中利用lr挑选出来的特征拼接

4、将从article_tf-idf中利用lr挑选出来的特征与将从word_segment_tf-idf中利用svm挑选出来的特征拼接

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,440评论 0 13
  • TF API数学计算tf...... :math(1)刚开始先给一个运行实例。tf是基于图(Graph)的计算系统...
    MachineLP阅读 3,431评论 0 1
  • 1. tf函数 tensorflow 封装的工具类函数 | 操作组 | 操作 ||:-------------| ...
    南墙已破阅读 5,056评论 0 5
  • 今日体验: 今天一哥们给我打电话,说要保养了,过来找我。平时都是电话联系,也都好长时间没有见面了,发了位置后,上午...
    bbaf70c1705c阅读 176评论 0 0
  • 这个时代,信息大爆炸。我们每天都能找到各种新奇的观点。为了让自己变得更好,我们总是不停地寻找更好的理论,更好的策略...
    jianshucom阅读 963评论 0 0