作为自学数据科学的数据科学工作者,在学习的过程中确实遇到了不少困难和麻烦,理论,技术,算法,软件,编程语言……而第一个困难就是找些合适的“教科书”,来指导自己的学习和实践。作为一个过来人,把自己在学习过程中积累的经典材料分享出来,希望能够帮助感兴趣的数据科学爱好者们!
注:信息不能少,但也绝不要泛滥,以下是我精简出来的资源,如有需要可以私信给我,在不影响版权的情况下做分享。
书籍:经典的教材永远应该是一个数据科学工作者的字典
工具:
《Python for Data Analysis》McKinney
这本书是用Python做数据分析的绝佳参考,包括Numpy,Pandas,Matplotlib这些最实用的python数据处理和初步分析的工具,可以在工作中随查随看。
《Web Scraping with Python》 Mitchell
比较稀缺的爬虫参考书,工具稍有过时,但是仍然能够为爬虫的学习提供很好的理论和初步的工具使用方法。
机器学习:
《Python for Machine Learning》 Sebastian Raschka
最喜欢的一本ML书籍,Sebastian完美地结合了理论和案例,从易到难的顺序将ML的所有模型做出了解释,本书使用sklearn作为工具,当然需要神经网络时我们就需要另外的书籍了。
深度学习:
《Artificial Intelligence A Modern Approach 3rd》Stuart Russell, Peter Norvig
经典的AI书籍,或者说这个一本完整的AI数学和理论基础书籍,理论的阐述相当完备和详细。比较适合时间比较多,想扎实学习的朋友。
应用类:
《Python for Finance》Yves Hilpisch
机器学习在投资领域的应用,Fintech伙伴必备。
网站:网站的内容更新速度较比快,能够得到最新的行业发展的动向的新技术的信息
DSC是一群数据数据科学家的社区,需要申请才能够加入,所有的内容都是各个用户分享的原创信息,订阅DSC的邮件推送,可以定期地接收到高质量的文章推荐。
Medium是一个综合的轻博客平台,内容质量和阅读体验是我经历过最好的,也能能follow很多原创大牛的文章。
KDN是最早的一批数据科学网站,虽然网站设计从来都很烂(无力吐槽),但还是不乏一些高质量的内容(数据源,数据竞赛信息和文章)
读万卷书,行万里路,多用Kaggle磨练磨练自己的知识。
博客:追随大牛的博客,看看大牛对技术和行业的理解
Google 研究团队的最新研究成果,包括了机器学习,深度学习和人工智能的多种应用案例,是学习最新研究方向的很好材料。
MOOC:便宜(甚至免费)又实惠的课程,很好的温故知新的工具
学习机器学习的必点课程,Andrew的讲授从理论出发,对多种算法模型和优化方法做了详细的介绍。
Jeremy的教学方法和Andrew则完全相反,Jeremy作为Kaggle发掘出的大神,一直相信Learning by doing,他从一个个实际的例子出发,先让学生解决实际问题,再讲授其中的理论和算法,动手能力强的朋友可以从Jeremy这里入手。
比较全面的基础课程,完全是大学的教学方式,理论 + 作业 + 项目 + 合作,来自哈佛,质量不用说。
公众号:一些国内外的数据科学社交公众号
Twitter:
@ylecun:CNN创造者,Facebook AI Director
@Andrej Karpathy:Tesla AI Director
@drfeifei:李飞飞,Google Cloud 首席科学家,Stanford 教授
@AndrewYNg:吴恩达,不多介绍了
@mrogati:数据科学家,数据科学投资人
微信:
机器之心
算是比较权威的机器学习公众号了,新闻都是一手的,和国外接轨,推荐!
UniDeep数据科学家
创业团队的公众号,都是数据科学家精挑细选的干货!