问题描述
在机器学习中,需要做的第一件事情就是准备输入的数据,这些数据有来自于文本文件的,有来自于数据库的,有来自于网络网页的,格式五花八门,都不一样,为了方便后边的数据处理,我们首先需要格式化这些数据,让这些数据具有统一的格式。
结构化的平面文件
Color Value
Red 1
Orange 2
Yellow 3
Green 4
Blue 5
Purple 6
Black 7
White 8
如上面的数据所示,结构化的数据,最开始的一行是title,表示每一列数据的意义,从第二行开始每一行都是一个有效的记录对象。
如何有效的的处理这些数据
使用python本身文件输入输出功能并不是非常智能,它把数据当作普通的文本一行一行的读取。并不能很智能的读取结构化的文本文件。
在机器学习中,padas库,是专门用来处理这些数据的。
如何用pandas库来处理这类结构化的数据
导入pandas库
import pandas as pd
具体运用
color_table = pd.read_table("colors.txt")
print(color_table)
输出结果
Color Value
0 Red 1
1 Orange 2
2 Yellow 3
3 Green 4
4 Blue 5
5 Purple 6
6 Black 7
7 White 8