随机采样接口(子函数)

Python 2.7
IDE Pycharm 5.0.3
sklearn 0.17.


目前接口库

@MrLevo520--数据转化接口

仍在不断更新


目的

将一堆数据中随机或者按比例抽取部分作为训练样本并保存txt/csv


准备工作

请先安装相关科学计数包,numpy,sklearn等,具体看包导入情况进行相应安装


接口代码1-按数量随机抽样

首先新建一个py文件,我以demo.py为例这个名字随便取,只要调用时候用到就可以了),输入以下内容:

import numpy as np
from sklearn import cross_validation
import random
import string

def SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000):

    dataMat=[]
    fr = open(ReadPath,"r")
    for line in fr.readlines():
        curLine = str(line.strip())
        dataMat.append(curLine)
    fr.close()
    try:
        slice = random.sample(dataMat,SelectNum)

    except Exception as ex:
        print ex

    fw = open(SavePath,"a")
    for newline in slice:
        fw.write(str(newline).strip())
        fw.write("\n")
    fw.close()

# test
if __name__ == '__main__':
    
    SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

接口说明

SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# SelectNum是txt中的需要随机采样的个数。

接口(函数)调用实例

在同一工程目录下的另一个py文件中只需要操作如下

import demo
demo.SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

执行效果

左边是原始数据集,右边是随机抽取的1500个样本

这里写图片描述

接口代码2-按比例随机抽样

在刚才demo.py继续 输入以下内容(单独的话需要再重复导入包):

def SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1):

    dataCombineLabel =np.genfromtxt(ReadPath,delimiter=delimiter,dtype=None)
    selected,others = cross_validation.train_test_split(dataCombineLabel,test_size=1-SelectPrerc,random_state=randomState)
    fw = open(SavePath,"a")
    for line in selected:
        linelist = list(line)
        print linelist
        linestr = ",".join(map(str,linelist))
        fw.write(linestr)
        fw.write("\n")
    fw.close()

接口说明

SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# delimiter是制表分隔符,就是你的txt中是如何存储数据的具体而定,默认","
# SelectPrerc是需要随机采样的比例,默认20%
# randomState是随机数种子,随机数种子一样的话每次随机出来结果都一样

接口(函数)调用实例

import demo
demo.SelectPercSamping2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",",",0.2,1)


执行效果

左边是原始数据集,右边是随机按比例抽取的12830x0.2=2566个样本

这里写图片描述

Pay Attention

1.使用genfromtxt时,产生字符串读取为nan情况,参考官方文档,将其参数dtype=None设置即输出字符串和数字组合形式的元组类型,这时候如果要以csv这个格式输入txt,则需要先转换为list,使用list(tuple),转化为list之后,再使用map函数,map(str,list),可以把list中元素全部转化为str类型,再使用",".join(list)方式转化为可以写入txt的字符串形式,具体的可以看个例子:

>>list1 = ['a', 'b', 'c', 'd', 'e']
>>str_convert = ','.join(list1)
>>str_convert

输出形式

"a,b,c,d,e"

ok,这样就可以组成新的str然后写入txt了。

2.对于list写入txt,还有一个笨方法,限用于数量少的list,使用格式化字符串,举个例子

>>list1 = ['a', 3, 4.556]
>>str1 = "%s,%d,%.2f"%(list1[0],list1[1],list1[2])
>>print str1

输出

"a,3,4.56"
#适用于list小,而且定制化程度较高的例子

最后

有些接口经常用到,自己写了对以后帮助还是蛮大的,直接调用即可,等接口够多了,我整理一下写个小库出来,可以方便调用。


致谢

@CC要当程序猿--Numpy学习笔记1--genfromtxt
@pizi06--python string与list互转
@李博Garvin--【机器学习算法-python实现】采样算法的简单实现

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容