如何自学数据科学的统计学

原文地址：How to Learn Statistics for Data Science, The Self-Starter Way

统计学：理解统计学、特别是贝叶斯概率对许多机器学习算法来说都是至关重要的。

你想快速且低廉的方式学习统计学？好消息...，你可以通过免费的在线资源掌握核心概念、概率、贝叶斯思想甚至统计机器学习，这儿有自学最好的资源。

顺便说下，你不用需要一个数学学位，但是，如果你有数学背景，你肯定会喜欢这种有趣的、动手的方法。

这个指导将使你有在数据科学领域必须的统计思维，它将让你比一些没有它的有抱负的数据科学家更有利。

你知道的，自从你学习如何去编程，它总是会引诱你直接使用机器学习包，即使你知道又能怎么样呢？如果你想在开始的时候，通过在真正的项目里面去滚雪球的方式学会也是可以的。

但是，如果这样的话，你将可能永远不会完全的去学习统计学和概率论，而作为一个数据科学家，这些是你的职业生涯中非常必要的部分，这就是为什么要学的原因。

首要必须的: 基本的Python技能

为了完成这个教程，你需要最基本的Python编程技能，我们将通过应用、动手的方式学习统计学。如果你没有相关技能，可以通过我们的教程，如何通过自学的方式学习python, 这是快速学习Python最快的方式，我们推荐至少要完成到教程的第二步。注：可以是其他语言，但是示例都是Python.

在数据科学中，统计学的必要性

统计是一个广泛的领域，应用于许多行业。

它在维基百科的定义是：它是对数据的收集，分析，解释，呈现和组织的研究。所以，数据科学家需要了解统计学就不那么让人感到惊奇了。

例如，数据分析至少需要描述性统计和概率论。这些理论将帮助你更好的根据数据做一些商业决定。

关键概念包括概率分布，统计学意义，假设检验和回归。

而且，机器学习需要明白贝叶斯概率，贝叶斯概率是许多机器学习模块的引擎。

关键概念包括条件概率、先验概率、后验概率、最大似然估计，如果这些概念让你感到畏惧，不要着急，一旦你卷起袖子并开始学习，这一切都会明白。

学习数据科学中的数据统计最好的方式

到目前为止，你可能已经发现，“自学某个知识X”的共同方式是跳出课堂教学而直接通过动手的方式，掌握数据科学中统计学也不例外。

事实上，我们通过编程的方式来掌握统计学中的核心概念，这将非常有趣。

如果你没有正式的数学相关教育背景，那么你会发现，通过这种方式能够让你更加简单的理解复杂的公式。它将让你对每个计算的逻辑进行思考。

如果你有一些正式的相关的数学背景，这种方式可以将你的理论与实践将结合，且给你很多有趣的编程挑战。

以下是在数据科学领域学习统计学和概率论的三个步骤：

统计学核心概念

描述性统计，分布，假设检验和回归。
贝叶斯概率理论

条件概率、先验概率、后验概率、最大似然估计
介绍机器学习中的统计学

学习基本的机器学习概念及如何在机器学习中使用统计学

在完成这三步以后，你将真正的接触和面对更加困难的机器学习问题和常见的数据科学应用。

第一步：统计学核心概念

为了知道如何去学校统计学，首先，了解它是如何被使用的是对学习很有帮助的。让我们先看一些真正分析的示例或作为一个数据科学家可能会用到的应用：

试验性设计：你们的公司开始一个新的产品线，但是是通过线下零售销售。你需要设计一个A/B测试以控制不同区域之间的差异。你也需要从统计角度去估算门店使用的一些有意义的结果。
回归模型：你们公司需要能够更好的预测在它的所有门店里，个人产品线的需求是什么样的。库存不足和库存过剩都会有很高代价的，你考虑建立一系列的正则回归模型。
数据转换：在你正在测试中，有多个机器学习模型供你使用，有些模型能够通过输入数据生成相应的数据分布，你需要能够识别他们，并适当的转换输入数据或者知道在什么假设下具有相关性。

一个数据科学家每天要做上百个的决定，范围小到一个模块的挑战，大到一个团队的R&D策略。

大多数决定需要有坚实的统计学和概率论的理论基础。

例如，数据科学家需要经常决定哪个数据是确定的，哪个数据是具有随机性的。此外，他们需要知道是否有进一步探索的兴趣点。

这些都是在在做分析决定时很核心的东西（如果仅仅知道如何计算数值，那就仅仅接触表面而已）。

这儿有我们发现的最好的自学统计学基础的资源：

Think like a Bayesian...

Think Stats是一本极好的书籍（有免费的PDF版本），介绍所有核心概念。看这本书前提是什么呢？如果你知道如何编程，那么你可以在这过程中自己学习统计学，我们发现，这方式也很适合那些有数学背景的人。

第二步：贝叶斯概率理论

统计学的一个哲学辩论是频率论(Frequentists)和贝叶斯概率理论(Bayesians)，当在数据科学中学习统计学时，贝叶斯理论就更加具有相关性。

简而言之，频率论近用于抽样模块。意味着，他们只会用于对已经收集的数据进行描述。

另一方面，贝叶斯理论不仅用于抽样模块，也会用于在收集之前不确定的数据。如果你想了解更多它们之间的区分，你可以看下这个帖子：For a non-expert, what's the difference between Bayesian and frequentist approaches?.

在贝叶斯理论中，在收集数据之前不确定的水平称之为“先验概率”，数据之后，就会更新为“后验概率”，对于一些机器学习模型，这是很核心的概念，掌握它们非常重要。

而且，这些概念在使用它们之后都会有意义。

这儿有我们发现的最好的自学贝叶斯理论的资源：

Think like a Bayesian...

Think Bayes是一本极好的书籍（有免费的PDF版本），介绍所有贝叶斯理论相关的。它也是使用通过编程的方式去学习，这种方式有趣且简单，我们发现，这方式也很适合那些有数学背景的人。

第三步：介绍机器学习中的统计学

如果你想数据科学中学习统计学，在你学完统计学核心概念和贝叶斯理论后，没有比在机器学习模块中使用统计分析更好的方式了。

机器学习领域和统计学联系非常紧密，统计学的机器学习是现在机器学习最主要的方式。

在这一步中，你将实施一些来自scratch的机器学习模块，这将帮助您解开对其潜在技术的真正了解。

在这一阶段，即使你一行一行的直接copy代码，也是可以的。

它将帮助你在巩固你学习的统计学习的知识的同时，打开机器学习的黑盒子。

选择了以下模型，因为它们说明了前面几个关键概念。

线性回归

首先我们有预测模型的范例...

Linear Regression from Scratch in Python

朴素贝叶斯分类器

再次，我们有工作很好的尴尬的简单模型...

Intuitive Introduction, Naive Bayes from Scratch in Python

多臂赌博机

最后，我们有着著名的的“20行代码，打败任何A / B测试！”

Intuitive Introduction, Multi-Armed Bandits from Scratch in Python

如果你渴望学到更多，我们推荐以下资源。

For your reference...

Introduction to Statistical Machine Learning是一本极好的电子书籍（有免费的PDF版本），里面的示例是使用R语言，这本书涵盖了更广泛的话题，当您在机器学习方面取得更多的进展时，这是一个有价值的工具。。

更多资源

最后编辑于：2017.12.07 07:14:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,311评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,339评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,671评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,252评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,253评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,031评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,340评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,973评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,466评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,937评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,039评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,701评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,254评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,259评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,497评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,786评论 2赞 345