原文地址:How to Learn Statistics for Data Science, The Self-Starter Way
统计学:理解统计学、特别是贝叶斯概率对许多机器学习算法来说都是至关重要的。
你想快速且低廉的方式学习统计学?好消息...,你可以通过免费的在线资源掌握核心概念、概率、贝叶斯思想甚至统计机器学习,这儿有自学最好的资源。
顺便说下,你不用需要一个数学学位,但是,如果你有数学背景,你肯定会喜欢这种有趣的、动手的方法。
这个指导将使你有在数据科学领域必须的统计思维,它将让你比一些没有它的有抱负的数据科学家更有利。
你知道的,自从你学习如何去编程,它总是会引诱你直接使用机器学习包,即使你知道又能怎么样呢?如果你想在开始的时候,通过在真正的项目里面去滚雪球的方式学会也是可以的。
但是,如果这样的话,你将可能永远不会完全的去学习统计学和概率论,而作为一个数据科学家,这些是你的职业生涯中非常必要的部分,这就是为什么要学的原因。
首要必须的: 基本的Python技能
为了完成这个教程,你需要最基本的Python编程技能,我们将通过应用、动手的方式学习统计学。如果你没有相关技能,可以通过我们的教程,如何通过自学的方式学习python, 这是快速学习Python最快的方式,我们推荐至少要完成到教程的第二步。注:可以是其他语言,但是示例都是Python.
在数据科学中,统计学的必要性
统计是一个广泛的领域,应用于许多行业。
它在维基百科的定义是:它是对数据的收集,分析,解释,呈现和组织的研究。所以,数据科学家需要了解统计学就不那么让人感到惊奇了。
例如,数据分析至少需要描述性统计和概率论。这些理论将帮助你更好的根据数据做一些商业决定。
关键概念包括概率分布,统计学意义,假设检验和回归。
而且,机器学习需要明白贝叶斯概率,贝叶斯概率是许多机器学习模块的引擎。
关键概念包括条件概率、先验概率、后验概率、最大似然估计,如果这些概念让你感到畏惧,不要着急,一旦你卷起袖子并开始学习,这一切都会明白。
学习数据科学中的数据统计最好的方式
到目前为止,你可能已经发现,“自学某个知识X”的共同方式是跳出课堂教学而直接通过动手的方式,掌握数据科学中统计学也不例外。
事实上,我们通过编程的方式来掌握统计学中的核心概念,这将非常有趣。
如果你没有正式的数学相关教育背景,那么你会发现,通过这种方式能够让你更加简单的理解复杂的公式。它将让你对每个计算的逻辑进行思考。
如果你有一些正式的相关的数学背景,这种方式可以将你的理论与实践将结合,且给你很多有趣的编程挑战。
以下是在数据科学领域学习统计学和概率论的三个步骤:
-
统计学核心概念
描述性统计,分布,假设检验和回归。
-
贝叶斯概率理论
条件概率、先验概率、后验概率、最大似然估计
-
介绍机器学习中的统计学
学习基本的机器学习概念及如何在机器学习中使用统计学
在完成这三步以后,你将真正的接触和面对更加困难的机器学习问题和常见的数据科学应用。
第一步:统计学核心概念
为了知道如何去学校统计学,首先,了解它是如何被使用的是对学习很有帮助的。让我们先看一些真正分析的示例或作为一个数据科学家可能会用到的应用:
- 试验性设计:你们的公司开始一个新的产品线,但是是通过线下零售销售。你需要设计一个A/B测试以控制不同区域之间的差异。你也需要从统计角度去估算门店使用的一些有意义的结果。
- 回归模型:你们公司需要能够更好的预测在它的所有门店里,个人产品线的需求是什么样的。库存不足和库存过剩都会有很高代价的,你考虑建立一系列的正则回归模型。
- 数据转换:在你正在测试中,有多个机器学习模型供你使用,有些模型能够通过输入数据生成相应的数据分布,你需要能够识别他们,并适当的转换输入数据或者知道在什么假设下具有相关性。
一个数据科学家每天要做上百个的决定,范围小到一个模块的挑战,大到一个团队的R&D策略。
大多数决定需要有坚实的统计学和概率论的理论基础。
例如,数据科学家需要经常决定哪个数据是确定的,哪个数据是具有随机性的。此外,他们需要知道是否有进一步探索的兴趣点。
这些都是在在做分析决定时很核心的东西(如果仅仅知道如何计算数值,那就仅仅接触表面而已)。
这儿有我们发现的最好的自学统计学基础的资源:
Think Stats是一本极好的书籍(有免费的PDF版本),介绍所有核心概念。看这本书前提是什么呢?如果你知道如何编程,那么你可以在这过程中自己学习统计学,我们发现,这方式也很适合那些有数学背景的人。
第二步:贝叶斯概率理论
统计学的一个哲学辩论是频率论(Frequentists)和贝叶斯概率理论(Bayesians),当在数据科学中学习统计学时,贝叶斯理论就更加具有相关性。
简而言之,频率论近用于抽样模块。意味着,他们只会用于对已经收集的数据进行描述。
另一方面,贝叶斯理论不仅用于抽样模块,也会用于在收集之前不确定的数据。如果你想了解更多它们之间的区分,你可以看下这个帖子:For a non-expert, what's the difference between Bayesian and frequentist approaches?.
在贝叶斯理论中,在收集数据之前不确定的水平称之为“先验概率”,数据之后,就会更新为“后验概率”,对于一些机器学习模型,这是很核心的概念,掌握它们非常重要。
而且,这些概念在使用它们之后都会有意义。
这儿有我们发现的最好的自学贝叶斯理论的资源:
Think Bayes是一本极好的书籍(有免费的PDF版本),介绍所有贝叶斯理论相关的。它也是使用通过编程的方式去学习,这种方式有趣且简单,我们发现,这方式也很适合那些有数学背景的人。
第三步:介绍机器学习中的统计学
如果你想数据科学中学习统计学,在你学完统计学核心概念和贝叶斯理论后,没有比在机器学习模块中使用统计分析更好的方式了。
机器学习领域和统计学联系非常紧密,统计学的机器学习是现在机器学习最主要的方式。
在这一步中,你将实施一些来自scratch的机器学习模块,这将帮助您解开对其潜在技术的真正了解。
在这一阶段,即使你一行一行的直接copy代码,也是可以的。
它将帮助你在巩固你学习的统计学习的知识的同时,打开机器学习的黑盒子。
选择了以下模型,因为它们说明了前面几个关键概念。
线性回归
首先我们有预测模型的范例...
朴素贝叶斯分类器
再次,我们有工作很好的尴尬的简单模型...
多臂赌博机
最后,我们有着著名的的“20行代码,打败任何A / B测试!”
如果你渴望学到更多,我们推荐以下资源。
Introduction to Statistical Machine Learning是一本极好的电子书籍(有免费的PDF版本),里面的示例是使用R语言,这本书涵盖了更广泛的话题,当您在机器学习方面取得更多的进展时,这是一个有价值的工具。。