用python进行数据处理(numpy+pandas)

正文之前的BB时间

还是个人实验的需要,实验语料数据句子Sequence的长短不一,最长的和最短的差了两个数量级,一起训练非常耗时。因此想在实验中,根据长度,把句子分成不同的桶Bucket,每个Bucket中句子个数大致相同,对Bucket分别进行训练。
记录一下分Bucket的过程。

这里是正文

分Bucket

share.json文件中的seq2seq_len记录了句子长度的信息,提取seq2seq_len,建立Series。Series中index为句子长度,data为该长度句子的个数。

>>> with open('share.json','r') as f:
           data = json.load(f)
           data_seq2seq_len = data['seq2seq_len']
           data_seq2seq_len = pd.Series(data_seq2seq_len)
>>> data_seq2seq_len
100     4321
1002       1
101     4210
102     4196
        ... 
999        1
Length: 882, dtype: int64

检查一下各个数据的格式。

>>> type(data_seq2seq_len.index[0])
numpy.int64
>>> type(data_seq2seq_len.index)
pandas.core.indexes.numeric.Int64Index

画一个图看看句子长度的大致分布,横坐标为句子长度,纵坐标为该长度句子的个数。

>>> import matplotlib.pyplot as plt
    import matplotlib.pyplot
    %matplotlib notebook
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    data_seq2seq_len.plot()
TIM截图20180131202600.png

可以发现,大部分句子集中在中低长度,基本符合常规预期分布情况。
按句子长度大致平均分成三组,计算一下各组的个数、最大值、平均值和最小值。(注意这里是按句子长度分的,分组跟个数无关)

>>> grouping=pd.qcut(data_seq2seq_len,3)
    grouped=data_seq2seq_len.groupby(grouping)
    def get_stats(group):
        return {'min':group.min(),'max':group.max(),'count':group.count(),'mean':group.mean()}
    grouped.apply(get_stats).unstack()
count max mean min
(0.999, 12.0] 299.0 12.0 3.872910 1.0
(12.0, 301.333] 289.0 299.0 92.730104 13.0
(301.333, 6981.0] 294.0 6981.0 2403.653061 306.0

可以发现,句子长度的跨度非常大,分Bucket真的很有必要。
计算一下句子总数。

>>> data_seq2seq_len.sum()
734631

计划分四个Bucket,那么需要找三个分割点。
734631平分成4,分别为183657.75,367315.5,550973.25,734631。
将整个句子长度-个数Series排序后前向求和,得到一个新Series,每个位置的值为当前位置之前所有值的和。

>>> seq2seq_len_sum=data_seq2seq_len.cumsum()

根据刚才确定的四个分界点,即可找出Bucket的长度分界点。

>>> seq2seq_len_sum[seq2seq_len_sum<550973.25]
12          6
13         20
14         60
        ...  
139    550143
Length: 128, dtype: int64

完成!

正文之后再BB两句

整个过程比较简单,主要就是numpy和pandas的一些函数简单组合应用,记录一下,以后实验做完估计用得就越来越少了。。。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容