昨天又明确了一些方向,ML是一定要学的,但感觉kaggle的titanic就足够入门了。爬虫招聘信息的意外找到了代码,学完numpy和pandas记得回去完善一下并移植到实习僧或者智联招聘做成自己的小项目。risk部分随缘吧,只能从信贷评分卡模型什么入手了,毕竟quant部分现在还不是很想涉及。
好啦,先学基础语法,同时听ML的课,再完善kaggle和小分析项目的学习。
下面是python基础学习模块:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4
output:
California NaN
Ohio 35000.0
Oregon 16000.0
Texas 71000.0
dtype: float64
series把字典直接变成series,空缺数值用NaN表示。
series类似一维数组,由一组数据和相对应的数据标签组成。
DataFrame为表格型数据结构,既有行索引也有列索引,看作series组成的字典。
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3
Nevada Ohio
2000 NaN 1.5
2001 2.4 1.7
2002 2.9 3.6
嵌套字典把外层键作为行索引内层键列索引。
或者:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
pop state year
0 1.5 Ohio 2000
1 1.7 Ohio 2001
2 3.6 Ohio 2002
3 2.4 Nevada 2001
4 2.9 Nevada 2002