我想从事数据科学相关岗位,应该会哪些数学基础呢?

很多同学想从事数据科学岗位,对于这个岗位而言,数学知识的储备重要吗?

答案显而易见,掌握好数学对于从事该岗位而言是很重要的。数学一直是任何当代科学学科的基础,几乎所有的现代数据科学技术(包括所有的机器学习)都有一些深刻的数学知识。在本文中,我们将讨论想成为一名优秀的数据科学家应该掌握的基本数学知识,以便在各个方面都能很好地适应。


介绍

对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

有时候,作为一名数据科学家(甚至是团队的初级分析师),你必须全心全意地学习那些基础的数学知识,或者正确地应用这些技术,有时候你可以通过使用一些API或者拿来即用的算法完成相关任务。

但是,如果你对用于为用户创建有意义的产品推荐算法背后的数学知识有充分的了解,这将永远不会对你有任何损害。通常情况下,懂得这些知识应该能让你在同龄人中占有一席之地。

毫无疑问,想成为一名顶级的数据科学家还需要掌握其他领域的知识,比如编程能力、具有一定的商业头脑,以及对数据的独特分析和好奇心态。本文所要做的就是整理一份最基本的数学技能指南,以帮助你更好地完成这项工作。


对“新手”特别重要

对于那些在其他领域花费大量时间并想进入这一领域的专业人士来说,基础学知识显得尤其重要,比如硬件工程、零售、化学加工工业、企业管理等领域。

虽然这些领域的工作中也涉及电子表格、数值计算和预测方面的内容,但在数据科学实践中对必要的数学技能要求却大不相同。

为什么以及如何与众不同——这是科学而不是数据

考虑一个Web开发人员(或业务分析师),他可能每天需要处理大量的数据和信息,但可能没有强调对该数据进行建模。通常,数据分析的任务重点在于“ 根据需求利用数据并继续推进项目 ”,而不是深入探索,数据科学应该始终关注科学(而不是数据)。某些工具和技术会变得不可或缺,其中大多数是科学处理过程的特点:

通过探测潜在的动态来建模过程

构建假设

严格评估数据源的质量

量化数据和预测的不确定性

培养个人从信息流中识别隐藏模式的感觉

清楚地了解模型的局限性

理解数学证明及其背后的所有抽象逻辑

这类的培训,大多数没有考虑正数而是讲解抽象的数学实体(及其属性和相互关系),被认为是四年制大学学位课程标准课程的一部分。个人不需要以优异的成绩从顶尖大学毕业来获得这种水平的数学知识,但不幸的是,过去的访问量几乎在变少。


展示成功的蓝图

一般而言,没有通用的蓝图。就其本质而言,数据科学并不依赖于特定的学科领域,并且可能是在单个项目中处理各种现象,如癌症诊断和社会行为分析等,这会产生各种令人眼花缭乱的n维数学对象、统计分布、优化目标函数等。

上面提到的那些东西是什么?如果你对其补熟悉的话,以下是我们需要学习、吸收的内容建议。


函数、变量、方程、图


What:从基本的知识开始,如线的方程式到二项式定理及其性质。

对数、指数、多项式函数、有理数

基本几何和定理,三角恒等式

实数和复数的基本属性

级数、总和和不等式

图表和绘图、笛卡尔和极坐标系统、圆锥曲线

示例:如果想了解在排序后在百万项目数据库上搜索的运行速度,你将会遇到二进制搜索的概念。为了理解它的行为,需要理解对数和递推方程。或者是分析时间序列的话,可能会遇到周期函数和指数衰减等概念。

学习资源:

数据科学数学技能——Coursera

https://www.coursera.org/learn/datasciencemathskills

代数简介——edX

https://www.edx.org/course/introduction-algebra-schoolyourself-algebrax-1

代数——可汗学院

https://www.khanacademy.org/math/algebra


统计

What:成长为数据科学家必须知道的知识。在关于数据科学的讨论中,再如何强调掌握统计和概率的基本概念的重要性都不为过。该领域的许多从业者实际上称经典机器学习(非神经网络)只是统计学习。该主题内容非常广泛,重点规划大多数的基本概念即可。

数据摘要和描述性统计、集中趋势、方差、协方差及相关性

基本概率:基本概念、期望、概率演算、贝叶斯定理、条件概率

概率分布函数:均匀、标准、二项式、卡方、学生t分布、中心极限定理、

采样、测量、错误、随机数生成

假设检验、A / B检验、置信区间、p值,

方差分析、t检验

线性回归,正则化

示例:在面试时,作为一名潜在的数据科学家,如果你能掌握上面提到的所有概念,你会很快地给对方留下深刻的印象。作为数据科学家,你几乎每天都会使用上述中的一些概念。

学习资源:

R专业统计学——Coursera

https://www.coursera.org/specializations/statistics

使用Python进行数据科学的统计和概率—— edX

https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+3T2017/course/

商业统计与分析专业—— Coursera

https://www.coursera.org/specializations/business-statistics-analysis


线性代数

What:社交网络软件上的朋友推荐、音乐APP中的歌曲推荐以及使用深度迁移学习将自拍照转换为其它风格的图像,这些都有用到线性代数的知识。线性代数是数学领域的一个重要分支,用于理解大多数机器学习算法如何在数据流上工作以创建洞察力。以下是要学习的基本内容:

矩阵和向量的基本属性——标量乘法、线性变换、转置、共轭、秩、行列式

内积外积、矩阵乘法法则和各种算法、逆矩阵

特殊矩阵——方阵、单位矩阵、三角矩阵、稀疏和密集矩阵、单位向量、对称矩阵、埃尔米特矩阵、斜埃尔米特矩阵和酉矩阵,

矩阵分解、高斯/高斯-若尔消除法,求解Ax = b方程的线性系统

矢量空间、基、跨度、正交性、线性最小二乘,

特征值、特征向量和对角化,奇异值分解(SVD)

示例:如果你使用过主成分分析(PCA)降维技术,那么你可能已经使用过奇异值分解来实现数据集的紧凑维度表示,使得参数更少。所有神经网络算法都使用线性代数技术来表示和处理网络结构和学习操作。

学习资源:

线性代数基础—— edX

https://courses.edx.org/courses/course-v1:UTAustinX+UT.5.05x+2T2017/course/

机器学习数学:线性代数——Coursera

https://www.coursera.org/learn/linear-algebra-machine-learning


微积分

What:无论你在大学期间喜欢它还是讨厌它,在数据科学或机器学习领域的许多地方都会应用微积分的概念。它隐藏在线性回归中最小二乘问题的简单分析解决方案背后,或者嵌入到神经网络学习新模式的每个反向传播中。以下是要学习的内容:

单变量、极限、连续性和可微性的函数

中值定理、不确定性和洛必达法则

极大值和极小值

乘积和链式法则

泰勒级数、无穷级数求和/积

积分计算和中值定理、对有限和不正确积分的评价,

Beta和Gamma函数

多变量函数、极限、连续性、偏导数

普通和偏微分方程的基础知识

示例:如何实现逻辑回归算法,它很有可能使用一种称为“梯度下降”的方法来找到最小损失函数。要了解其如何工作,需要使用来自微积分的基本概念——梯度、导数、极限和链式法则。

学习资源:

大学前掌握的微积分——edX

https://www.edx.org/course/pre-university-calculus

可汗学院的微积分全部内容

https://www.khanacademy.org/math/calculus-home

机器学习数学:多变量微积分——Coursera

https://www.coursera.org/learn/multivariate-calculus-machine-learning


离散数学

What:这部分内容通常是“数据科学数学”方案中较少讨论的主题,但事实是所有现代数据科学都是在计算系统的帮助下完成的,离散数学是这类系统的核心。要学习的内容:

集合、子集和幂集

计数函数、组合学、可数性

基本证明技术——归纳法、反证法

归纳、演绎和命题逻辑的基础知识

基本数据结构——堆栈、队列、图、数组、哈希表、树

图表属性——连接组件、度、最大流量/最小切割概念、图形着色

递归关系和方程

函数的增长和O(n)符号概念

示例:在任何社交网络分析中,你需要知道图的属性和快速算法以搜索和遍历整个网络。在选择任何算法时,都需要通过使用 O(n)表示法来了解时间和空间复杂度。

学习资源:

计算机科学专业的离散数学概论——  Coursera

https://www.coursera.org/specializations/discrete-mathematics

数学思维导论——Coursera

https://www.coursera.org/learn/mathematical-thinking

掌握离散数学:集合、数学逻辑—— Udemy

https://www.udemy.com/master-discrete-mathematics/


最优化、运筹学

What:这些主题与应用数学中的传统话语没什么不同,因为它们在专业领域——理论计算机科学、控制理论或运筹学中最为相关和最广泛使用。实际上,每种机器学习算法旨在最小化受各种约束影响的某种估计误差,这就是优化问题。要学习的内容:

优化的基础——如何制定问题

最大值、最小值、凸函数、全局解

线性规划、单纯形算法

整数规划

约束编程、背包问题

示例:使用最小平方损失函数的简单线性回归问题通常具有精确的解析解,但逻辑回归问题却没有,要理解其中的原因,需要了解优化中凸性的概念,这也将阐明为什么我们必须对大多数机器学习问题中的“近似”解决方案能够满意。

资源:

业务分析中的优化方法 ——edX

https://courses.edx.org/courses/course-v1:MITx+15.053x+3T2016/course/

离散优化—— Coursera

https://www.coursera.org/learn/discrete-optimization

确定性优化 ——edX

https://www.edx.org/course/deterministic-optimization-0

结束语

作为一名数据科学家,需要掌握这么多的知识,看起来似乎有些让人绝望,但你不需要感到害怕,网络上资源很多,可以根据个人需求定制自己的学习资源列表。在复习这些知识并学习新概念之后,个人能力会有很大的提升,这是成为数据科学家的一大飞跃。(完)

对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容

  • 安装 MySQL,并设置远程访问 参照 Ubuntu 16.04 安装 MySQL 5.7,并设置远程访问。 My...
    Tim_Lee阅读 2,151评论 0 0
  • 文/黄梅枝 张承宇听俆大炮一阵慷慨陈词,大概听出一些门道,但是这官场的事他真不懂。 俆大炮说:“谁也不是一生下来就...
    黄梅枝阅读 372评论 5 17
  • 跟朋友微信聊完之后,这么久,我一直坚持的事,才发现也许并不是那么回事。其实,也觉得跟想象中差的太远了。 正所谓爱情...
    jade小玉儿阅读 136评论 0 0
  • 陈述事实是最不容易引起对方的情绪反弹,也是最有说服力的方法。 那什么是陈述事实呢? 大家听下这几句话是不是陈述事实...
    花丽林阅读 1,209评论 0 0