2021-06-13第一章：数据载入及初步观察

1.1 载入数据

1.1.1 任务一：导入numpy和pandas

截屏2021-06-13 15.13.01.png

1.1.2 任务二：载入数据
1）相对路径：以当前文件夹位置为基准的路径
f = open('./titanic/test.csv')

2）绝对路径：完整的路径

../ 表示当前文件所在的目录的上一级目录
./ 表示当前文件所在的目录(可以省略)
/ 表示当前站点的根目录
使用os.getcwd() 获取得知文件当前工作目录路径（绝对路径）
用pd.read_csv() 和pd.read_table()读取数据时，可以得到

截屏2021-06-15 09.20.32.png

截屏2021-06-15 09.20.42.png
pd.read_csv()默认分隔符为',' (逗号)
pd.read_table()默认分隔符为'/t' (tab)
用pd.read_csv()和pd.read_table()读取csv文件时，二者的呈现不同，前者更加清晰，后者数据用逗号隔开，相对不清晰

用pd.read_table()读取csv文件时，需要调整参数，加上',' 即可得到与pd.read_csv()读取csv文件时的呈现相同（如图）

截屏2021-06-15 12.15.23.png

TSV是用制表符（Tab,'\t'）作为字段值的分隔符；CSV是用半角逗号（','）作为字段值的分隔符

1.1.3 任务三：每1000行为一个数据模块，逐块读取

截屏2021-06-15 12.41.40.png

逐块读取的目的在于将文本分成若干块，以1000个行为为一个数据模块，chunksize=1000，对数据进行逐块统计的合并处理

1.1.4 任务四：将表头改成中文，索引改成乘客ID
header=0 表示文件第0行（索引从0开始）为列索引，这样加names会替换原来的列索引。

截屏2021-06-15 13.00.09.png

1.2 初步观察

1.2.1 任务一：查看数据基本信息
查看数据基本信息 df.info()

1.2.2 任务二：观察表格前10行和后15行数据

df. head (10) 和 df. tail (15)
若将二者合并一起观察即为

截屏2021-06-15 13.09.26.png

1.2.4 任务四：判断数据是否为空，空的返回True，其余返回False

1.3 保存数据

df.to_csv('./titanic/train_Chinese.csv') 是dataframe类的方法，保存csv文件到相对位置下

1.4 知道数据叫什么

1.4.1 任务一：了解dataframe和series，写个小例子

numpy具有优秀的计算机能，pandas在numpy的基础上，具有数据分析能力
pandas一维数据结构：Series（向量）二维数据结构：Dataframe
pd.Series() 即可创建series函数

截屏2021-06-15 14.18.31.png

pd.Dataframe()创建Dataframe结构

截屏2021-06-15 14.36.34.png

1.4.2 任务二：载入数据

df = pd.read_csv('./titanic/train.csv')

1.4.3 任务三：查看dataframe每列项

df.columns

1.4.4 任务四：查看Cabin所有项

df.Cabin

1.4.5 任务五：删除多余列
发现test_1.csv与train.csv的区别在于列a

df = pd.read_csv('./titanic/test_1.csv')
del df['a']

1.4.6 任务六：隐藏多个指定列

df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
axis=1 代表跨列，axis=0代表跨行
若用drop语法完成任务五，即为
df.drop('a',axis=1)

【思考回答】
若需完全删除数据结构，即为

df.drop('columns',axis=1,inplace='True')
在这里就是df.drop('a',axis=1, inplace='True') 使用inplace就将原数据覆盖

1.5筛选逻辑

1.5.1 任务一：以"Age"为筛选条件，显示年龄在10岁以下的乘客信息。

df[df["Age"]<10]

1.5.2 任务二：以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage
midage= df[(df["Age"]>10)&(df["Age"]<50)]
&表示两组数据集合

1.5.3 任务三：将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

截屏2021-06-15 19.37.54.png

如果缺少了midage = midage.reset_index(drop=True)这一步骤，我们会发现得出的数据不同，reset前的midage最后一条index的数字是890，但reset后最后一条index的数字是575，说明过滤掉了一些数据，那么没有reset这个步骤的话，得到的index=100的数据不一定是第100条的数据

1.5.4 任务四：将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.loc[[100,105,108],['Pclass','Name','Sex']]
loc只能通过index和columns来取，不能用数字

1.5.5 任务五：使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.iloc[[100,105,108],[3,4,5]]
iloc只能用数字索引，不能用索引名

1.6 了解数据

1.6.1 任务一：利用Pandas对示例数据进行排序，要求升序

行索引升序

df.sort_index(axis=0, ascending=True)
axis=0 代表行，ascending=True 代表升序

列索引升序

df.sort_index(axis=1, ascending=True)
axis=1 代表列

列索引降序，ascending=False 代表降序

df.sort_index(axis=1, ascending=False)
ascending=False 代表降序

让任选两列数据同时降序排序

df.sort_values(by=['e','d'],ascending=False)
发现df.sort_index(axis=1,by=['e','d'],ascending=False)运行错误：sort_index()不与by共用

1.6.2 任务二：对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列

df.sort_values(by=['票价','年龄'],ascending=False)
同时考虑以下关系
df.sort_values(by=['票价','是否幸存'],ascending=False)
df.sort_values(by=['是否幸存','乘客等级(1/2/3等舱位)'],ascending=True)
df.sort_values(by=['是否幸存','性别'],ascending=False)
发现票价高的，乘客等级高的，男性，存活率大

1.6.3 任务三：利用Pandas进行算术计算，计算两个DataFrame数据相加结果

截屏2021-06-15 21.13.14.png

截屏2021-06-15 21.13.21.png

对应的行和列的值会相加，没有对应的会变成空值NaN
frame_a * frame_b

1.6.4 任务四：通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

最大的家族人数即为乘客的（兄弟姐妹个数+父母子女个数）的最大值
max(df['兄弟姐妹个数'] + df['父母子女个数'])

1.6.5 任务五：学会使用Pandas describe()函数查看数据基本统计信息

frame2.describe()将会看到数据基本信息统计
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值

1.6.6 任务六：分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？

用df['票价'].describe()查看某一列数据基本统计数据

截屏2021-06-15 21.37.17.png
得知票价平均值约32.2，最大值512.32，可知票价差距很大；标准差约为49.69，票价波动大
得知幸存概率较低
得知男性乘客有577名

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345