机器学习很火。
机器学习专家很贵。
所有大型互联网公司都驾着机器学习的马车朝着人工智能前进。
然而今天哪怕是互联网从业者,大部分也是不知道机器学习到底是什么的。机器如何学习?机器学到的是什么?为什么机器经过学习能够神奇的预测用户的喜好、股票的涨跌?人们好奇又渴望。
这里所说的从业者可能是开发工程师,可能是产品经理,也可能是运营,他们与机器学习专家们在同一家公司工作,参与同一个项目,但机器学习算法对他们仍然像黑魔法一样,神秘又疑惑。
这样的局面未免让人沮丧,毕竟如果相对论都可以在高等教育中得到普及,有什么领域是复杂到没办法好好说清楚的呢。据我有限的观察,造成这个局面的原因无非两种:
1.不少专业人士乐于将机器学习包装得晦涩曲折,以享用他人迷惑眼神中的优越感。
2.很少人把机器学习以直接的、让人容易理解的方式说出来。有那么几个在这样做的人,面向的也是专业领域学习者而非一般的科普受众。
我鄙视第一种人类。
我希望所有的写作者都能够追逐Richard Stevens的光芒,把复杂的东西变简单,追求简洁明了,追求直接易懂。
我将试着为所有想了解和学习机器学习和数据科学的人,推荐这几本的免费的电子书,带给你如沐春风般的体验。这一系列的书刊可以帮助你赢在起跑线上,早日成为人生赢家。这个list首先涵盖了关于统计基础的书籍,在掌握了基础知识之后,就可以开始阅读list里关于机器学习基础的书籍了,之后就能开始接触一定的拔高和拓展知识了。掌握知识后就可以对更高深的一两个课题有所接触了。最后就是要去读一读如何将这些你所学的融合为一体的书籍了。希望这些经典课题与最新热门课题的融合能够让你领悟到对于机器学习和大数据不一样的新的体验和兴趣。
1. Think Stats: Probability and Statistics for Programmers.
《统计思维:程序员数学之概率统计》
By Allen B. Downey
Think Stats 是一本写给码畜们的关于概率与统计学的初阶介绍类书籍。
这本书主要是介绍一些可以用来处理实际数据和讨论相关问题的基本方法。这本书讨论了一个基于美国国家卫生研究院(National Institutes of Health)数据的实际案例,来开展相关话题和知识点的讨论。这本书鼓励读者们去做一些基于真实数据集的project。
2. Probabilistic Programming & Bayesian Methods for Hackers
《贝叶斯方法:概率编程与贝叶斯推断》
By Cam Davidson-Pilon
这本书相比于数学更注重与对贝叶斯方法论(Bayesian Method)和概率性编程的理解。
贝叶斯方法论是对数学分析自然而然的估计与推论,然而贝叶斯方法论的推理非常繁杂难懂。一般情况下,关于贝叶斯推论的关键内容主要建立在概率论的两三个章节上,之后才会是真正讲解什么是贝叶斯推论。然而,按照这种讲解构架,由于贝叶斯的一些数学部分实在是很难被掌握,通常的书里只会介绍几个简单的,人为编造的案例。这些不符合真实世界的例子会让读者们有一种对于贝叶斯推论有一种 “so what” 的情绪。读者们无法认知到贝叶斯推论的重要性和实用性。事实上,这种想法只是其他作者最开始接触贝叶斯的初始理解而已。
3. Understanding Machine Learning: From Theory to Algorithms
《深入理解机器学习:从原理到算法》
By Shai Shalev-Shwartz & Shai Ben-David
机器学习是近几年来计算机领域里蹿红最快也确实有很多广泛应用的“小鲜肉”。 这本书的编写要义在于给读者一个原则性的对机器学习的介绍以及其联系到的算法案例。这本书介绍了如何通过实用且基本的机器学习和数学推导,来将原理转换为实际算法的理论解释。除了对于最基本东西的解释论述,这本书还包括了之前那些书目中没有提到的重要的课题。课题包括:计算机学习的计算复杂度,稳定性和凸性(convexity)的概念,随机梯度下降、神经网络和有结构的输出式学习的重要算法范例,以及 PAC-Bayes 和 compression-based bounds 等新兴概念。
4. The Elements of Statistical Learning
《统计学习要点》
By Trevor Hastie, Robert Tibshirani & Jerome Friedman
本书在大家都认知的一个基础框架上论述了在统计学领域上的一些重要的理论。尽管这本书的最主要主题是要讨论统计学知识,但它的重心却没有落在数学理论上。这本书为读者们提供了很多彩色插图和案例说明来阐明知识论点。这本书不仅仅对于统计学家来说很有价值,它对致力于科学工业进行数据挖掘的有志之士也有很大的阅读价值。这本书的知识网非常的广,从监督式学习(预测)到非监督式学习都有一定的设计。同时书中还提到了神经网络,支持向量机,分级树和分级助推(这是相关话题在所有书籍中第一次被综合讨论)之类的其他话题。
5. An Introduction to Statistical Learning with Applications in R
《统计学习导论:基于R应用》
By Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
这本书对于统计学习基础方法的介绍。这本书是写给非数学专业的大三大四本科生,研究生和博士生的。这本书包括了很大量的R语言的实例。这些实例都附有如何将统计方法使用进真实世界情形设置的详细解释。这些资源对于想要成为优秀的数据科学家的人来说是很有实际练习价值的。
书籍资料获取:关注公众号“飞马会” 回复数字“1”获取10本PDF电子版书籍