python数据分析入门手册-具体学什么，怎么学

- ❶ -

数据获取：公开数据、Python爬虫

外部数据的获取方式主要有以下两种。

第一种是获取外部的公开数据集，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站：

UCI：加州大学欧文分校开放的经典数据集，被很多数据挖掘实验室采用。

http://archive.ics.uci.edu/ml/datasets.html

国家数据：数据来源于中国国家统计局，包含了我国经济民生等多个方面的数据。

http://data.stats.gov.cn/

CEIC：超过128个国家的经济数据，能精确查找GDP、进出口零售，销售等深度数据。

http://www.ceicdata.com/zh-hans

中国统计信息网：国家统计局官方网站，汇集了国民经济和社会发展统计信息。

http://www.tjcn.org/

优易数据：由国家信息中心发起，国内领先的数据交易平台，很多免费数据。

http://www.youedata.com/

另一种获取外部数据的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息，爬取租房网站上某城市的租房信息，爬取豆瓣评分评分最高的电影列表，获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据，你可以对某个行业、某种人群进行分析。

在爬虫之前你需要先了解一些 Python 的基础知识：元素（列表、字典、元组等）、变量、循环、函数………

以及，如何用 Python 库（urllib、BeautifulSoup、requests、scrapy）实现网页爬虫。如果是初学，建议从 urllib+BeautifulSoup开始。

常用的的电商网站、问答网站、二手交易网站、婚恋网站、招聘网站等，都可以爬到非常有价值的数据。

- ❷ -

数据存取：SQL语言

在应对万以内的数据的时候，Excel对于一般的分析没有问题，一旦数据量大，就会力不从心，数据库就能够很好地解决这个问题。而且大多数的企业，都会以SQL的形式来存储数据，如果你是一个分析师，也至少要懂得SQL的操作，能够查询、提取公司的数据。

SQL作为最经典的数据库工具，为海量数据的存储与管理提供可能，并且使数据的提取的效率大大提升。你需要掌握以下技能：

提取特定情况下的数据：企业数据库里的数据一定是大而繁复的，你需要提取你需要的那一部分。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……，SQL可以通过简单的命令帮你完成这些工作。

数据库的增、删、查、改：这些是数据库最基本的操作，但只要用简单的命令就能够实现，所以你只需要记住命令就好。

数据的分组聚合、如何建立多个表之间的联系：这个部分是SQL的进阶操作，多个表之间的关联，在你处理多维度、多个数据集的时候非常有用，这也让你可以去处理更复杂的数据。

SQL这部分比较简单，主要是掌握一些基本的语句。当然，还是建议你找几个数据集来实际操作一下，哪怕是最基础的查询、提取等。

- ❸ -

数据预处理：Python（pandas）

很多时候我们拿到的数据是不干净的，数据的重复、缺失、异常值等等，这时候就需要进行数据的清洗，把这些影响分析的数据处理好，才能获得更加精确地分析结果。

比如销售数据，有一些渠道的销售是没有及时录入的，有一些数据是记录重复的。比如用户行为数据，有很多无效的操作对分析没有意义，就需要进行删除。

那么我们需要用相应的方法去处理，比如残缺数据，我们是直接去掉这条数据，还是用临近的值去补全，这些都是需要考虑的问题。

对于数据预处理，学会 pandas （Python包）的用法，应对一般的数据清洗就完全没问题了。需要掌握的知识点如下：

选择：数据访问（标签、特定值、布尔索引等）

缺失值处理：对缺失数据行进行删除或填充

重复值处理：重复值的判断与删除

异常值处理：清除不必要的空格和极端、异常数据

相关操作：描述性统计、Apply、直方图等

合并：符合各种逻辑关系的合并操作

分组：数据划分、分别执行函数、数据重组

Reshaping：快速生成数据透视表

网上有很多 pandas 的教程，主要是一些函数的应用，也都非常简单，可查 pandas 官方文档。

- ❹ -

概率论及统计学知识

数据整体分布是怎样的？什么是总体和样本？中位数、众数、均值、方差等基本的统计量如何应用？如何在不同的场景中做假设检验？数据分析方法大多源于统计学的概念，所以统计学的知识也是必不可少的。需要掌握的知识点如下：

基本统计量：均值、中位数、众数、百分位数、极值等

其他描述性统计量：偏度、方差、标准差、显著性等

其他统计知识：总体和样本、参数和统计量、ErrorBar

概率分布与假设检验：各种分布、假设检验流程

其他概率论知识：条件概率、贝叶斯等

有了统计学的基本知识，你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标，其实可以得出很多结论了：比如排名前100的是哪些，平均水平是怎样的，近几年的变化趋势如何……

你可以使用 Seaborn、matplotlib 等（python包）做一些可视化的分析，通过各种可视化统计图，并得出具有指导意义的结果。

- ❺ -

Python 数据分析

如果你有一些了解的话，就知道目前市面上其实有很多 Python 数据分析的书籍，但每一本都很厚，学习阻力非常大。但其实真正最有用的那部分信息，只是这些书里很少的一部分。

比如掌握回归分析的方法，通过线性回归和逻辑回归，其实你就可以对大多数的数据进行回归分析，并得出相对精确地结论。这部分需要掌握的知识点如下：

回归分析：线性回归、逻辑回归

基本的分类算法：决策树、随机森林……

基本的聚类算法：k-means……

特征工程基础：如何用特征选择优化模型

调参方法：如何调节参数优化模型

Python 数据分析包：scipy、numpy、scikit-learn等

在数据分析的这个阶段，重点了解回归分析的方法，大多数的问题可以得以解决，利用描述性的统计分析和回归分析，你完全可以得到一个不错的分析结论。

然后你会知道面对不同类型的问题的时候更适合用哪种算法模型，对于模型的优化，你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了，其实一个好的数据分析师，应该算是一个初级的数据挖掘工程师了。

你可以通过 Python 中的 scikit-learn 库来实现数据分析、数据挖掘建模和分析的全过程。

- ❻ -

系统实战与数据思维

到这个时候，你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战，练习解决实际问题的能力。

上面提到的公开数据集，可以找一些自己感兴趣的方向的数据，尝试从不同的角度来分析，看看能够得到哪些有价值的结论。

你也可以从生活、工作中去发现一些可用于分析的问题，比如上面说到的电商、招聘、社交等平台等数据中都有着很多可以挖掘的问题。

开始的时候，你可能考虑的问题不是很周全，但随着你经验的积累，慢慢就会找到分析的方向，有哪些一般分析的维度，比如Top榜单、平均水平、区域分布、同比环比、相关性分析、未来趋势预测等等。随着经验的增加，你会有一些自己对于数据的感觉，这就是我们通常说的数据思维了。

零基础学习数据分析，坑确实比较多，总结如下：

1.环境配置，工具安装、环境变量，对小白太不友好；

2.缺少合理的学习路径，上来 Python、HTML 各种学，极其容易放弃；

3.Python有很多包、框架可以选择，不知道哪个更友好；

4.遇到问题找不到解决办法，学习停滞不前；

5.网上的资料非常零散，而且对小白不友好，很多看起来云里雾里；

6.懂得技巧，但面对具体问题无法系统思考和分析；

……………………

最后编辑于：2020.09.23 14:03:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

python数据分析入门手册-具体学什么，怎么学

推荐阅读更多精彩内容