用Python开启你的数据科学事业的大门

点击链接加入群【我爱python大神】：https://jq.qq.com/

如果你对精彩的数据科学世界感兴趣，但不知道如何开始，那就让数据学校来帮助你吧。如果你对精彩的数据科学世界感兴趣，但不知道如何开始，那就从这篇文章开始吧。

步骤0：找出你需要学习的内容；

步骤1：熟悉Python；

步骤2：学习用pandas库进行数据分析、数据处理和可视化；

步骤3：用scikit-learn进行机器学习；

步骤4：深度理解机器学习；

步骤5：保持学习和练习；

福利：免费加入数据学校

点击链接加入群【我爱python大神】：https://jq.qq.com/

步骤：找出你需要学习的内容

数据科学是一个势不可挡的领域。很多人会告诉你，你要掌握以下内容才能成为一名数据科学家：统计、线性代数、微积分、编程、数据库、分布式计算、机器学习、可视化、实验设计、聚类、深度学习、自然语言处理等等。这根本不是事实。

那么，究竟什么是数据科学呢？它是一个先提出有趣问题，然后用数据回答这些问题的过程。一般来说，数据科学工作流程如下所示：

提出一个问题

收集有助于解决这个问题的数据

清理数据

探索、分析，并可视化数据

构建机器学习模型，并评价该模型

说明结果

这个流程不一定需要高级数学、精通深度学习，或上面列出的许多其他技能。但它确实要求编程语言知识和运用编程语言处理数据的能力。此外，虽然真正擅长数据科学需要精通数学，但你只需对数学有基本了解就可以开始了。

诚然，上面列出的其他专业技能可能在某一天帮你解决数据科学问题，然而，你不需要掌握所有这些技能才开始你的数据科学生涯。你今天就可以开始了，有我在这里帮你！

步骤1：熟悉Python

对数据科学，Python和R都是不错的编程语言选择。R在学术界往往更受欢迎，而Python更受行业欢迎，两种语言都有丰富的包支持数据科学工作流。我用两种语言教过数据科学，通常更喜欢Python。

作为初学者，你不需要同时学习Python和R。相反，你应该集中精力学习一种语言及其用于数据科学的包体系。如果你选择了Python（个人建议Python），建议安装Anaconda，它简化了Windows、OSX和Linux上各种包的安装和管理。

你也不需要在成为一个Python专家后才开始步骤2。你该重点掌握以下内容：类型、数据结构、导入、函数、条件语句、比较、循环和推导式。至于其他的一切内容可以等到以后再说！

如果你不确定你是否已经“足够”了解Python，可以浏览我的Python速查手册。如果你对大部分内容都已经熟悉，那么你可以开始步骤2了！

如果你希望能有帮助你学习Python的课程，下面是我推荐的一些内容：

通过10个应用快速开始Python是由Michael Kennedy（“与我聊Python”的播客主持人）讲授的一个很好的视频课程。

DataCamp和Dataquest都提供简短的Python入门互动课程。

Python入门是一门更充实的入门课程，它像一个交互式的教科书。

谷歌的Python课堂是对有编程经验的人最好教程，包括讲座视频和可下载的练习。

步骤2：学习用pandas库进行数据分析、数据处理和可视化

如果你要用Python处理数据，你应该学习如何使用pandas库。

pandas提供了一个高性能的数据结构（叫做 “DataFrame”），适用于有不同类型列的表格数据，类似于Excel表格或SQL表。它包含读写数据、处理缺失数据、过滤数据、清理混乱数据、合并数据集、可视化数据等工具。简而言之，学习pandas将大大提高你处理数据的工作效率。

然而，pandas包含了大量的函数，（可以说）提供了太多的方式来完成相同的任务。这使得学习pandas、寻找pandas的最佳实践具有挑战性。

这就是为什么我创建了一个pandas系列视频（30个视频，6小时）从头讲解pandas库。每个视频通过一个真实的发布在网上的数据集回答一个问题，这样你就可以在家跟着学。（同时我也创建了包含所有视频代码的Jupyter notebook。）

如果你更喜欢学习pandas的非视频类资源，这里是我推荐的内容。

步骤3：用scikit-learn进行机器学习

如果你希望用Python进行机器学习，应该学习使用scikit-learn库。

构建“机器学习模型”来预测未来或者自动从数据中提取信息，是数据科学最性感的部分。scikit-learn是Python中最受欢迎的机器学习库，有以下优点：

它对大量不同模型提供了一个干净且一致的接口。

它为每一个模式提供了许多调节参数，但同时设置了合理的默认值。

它的文档超出寻常的好，它不仅帮助你理解模型，还提供正确的使用方法。

然而，机器学习仍然是一个高度复杂且快速发展的领域，scikit-learn库的学习曲线非常陡峭。这就是为什么我创建了一个scikit-learn系列视频（9个视频，4小时），帮助你彻底掌握机器学习原理和scikit-learn工作流。这个系列没有假定你熟悉机器学习或高等数学。(你可以在GitHub上找到所有的代码)。

如果你更想要scikit-learn的非视频类资源，我推荐用Python机器学习（Amazon/GitHub）或者用Python机器学习导论（Amazon/GitHub）。

步骤4：深度理解机器学习

机器学习是一个很复杂的领域。虽然scikit-learn提供了机器学习的有效工具，但它无法直接回答许多重要问题:

怎么知道哪个机器学习模型最适合我的数据集？

如何解释模型的结果？

如何评价我的模型对未来数据的概括？

如何给模型选择特征？

等等。

如果你想熟练掌握机器学习，你需要能够回答这些要求经验和进一步研究的问题。这里有一些资源可以帮助你在这条路上走下去：

我最重要的建议是阅读An Introduction to Statistical Learning（PDF /亚马逊)。它将帮助你同时从理论和实践上理解回归和分类的许多重要方法，并且不需要高等数学基础。作者还制作了15个小时的高质量视频来作为这本书的补充。

如果你需要复习概率论和数理统计，我建议阅读OpenIntro Statistics(PDF /亚马逊)。

我制作了一些课程帮助你学习线性回归和逻辑回归——两个最受欢迎的机器学习模型。

虽然深入理解各种模型是不可取代的，我制作了一个监督学习模型的对比图，可以作为一个有用的参考指南。

我制作了几个指南，帮助你评估模型的质量：混淆矩阵术语的简单指南、理解ROC曲线和AUC、评估步骤和标准的对比。

步骤5：保持学习和练习

我对提高数据科学技能的最好建议是：找到可以激励你实践已经学到的东西、学习更多、然后实践的事情。可以是个人数据科学项目、Kaggle竞赛、在线课程、阅读书籍、阅读博客、参加聚会或会议，或者其他任何事情！

Kaggle竞赛是一个很好实践数据科学的方式，不需要提出自己的问题。不要担心你的名次，只需关注在每一个竞赛中学习新东西。（记住，这个过程中你不会练习数据科学工作流中一些重要部分：提出问题、收集数据和说明结果。）

如果是创建自己的数据科学项目，你应该在GitHub或博客上分享。这将有助于告诉其他人，你知道怎么做可重复性数据科学。（如果你不知道如何使用Git和GitHub，我有一个短视频系列，可以帮助你掌握基本方法)。

虽然有大量的数据科学博客，但DataTau可帮助你找到最新和最好的内容。建议关注36大数据Python专区，查看更多教程。

如果你喜欢电子邮件，我最喜欢的是Data Elixir、Data Science Weekly和 Python Weekly。

如果你想体验真正的Python社区，我强烈推荐参加PyCon US。（也会在各地举办小型的PyCon会议。）作为一个数据科学家，你还应该考虑参加SciPy 和最近的PyData 会议。

你的数据科学旅程才刚刚开始！数据科学领域有如此多东西需要学习，需要花费一生的时间来精通。记住：你不需要掌握所有的知识才开始你的数据科学职业生涯，你只需要现在就开始！

原文地址：How to launch your data science career (with Python)

End.

python学习交流QQ群：304050799

最后编辑于：2017.12.10 00:43:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

用Python开启你的数据科学事业的大门

推荐阅读更多精彩内容