给大数据入行者的，建议和书单

入行必读：与大数据相关的工作职位有哪些？

国内某知名互联网公司，有关数据分析师岗位的，要求描述：

1. 计算机、统计学、数学等相关专业本科及以上学历；

2. 具有深厚的统计学、数据挖掘知识，熟悉数据仓库和数据挖掘的相关技术，能够熟练地使用SQL；

3. 三年以上具有海量数据挖掘、分析相关项目实施的工作经验，参与过较完整的数据采集、整理、分析和建模工作；

4. 对商业和业务逻辑敏感，熟悉传统行业数据挖掘背景、了解市场特点及用户需求，有互联网相关行业背景，有网站用户行为研究和文本挖掘经验尤佳；

5. 具备良好的逻辑分析能力、组织沟通能力和团队精神；

6. 富有创新精神，充满激情，乐于接受挑战

其中，前三条属硬件要求。一般而言，对于有专业基础(计算机、统计学、数学等相关专业)的同学，入行需要3个月以上的学习与准备时间；而对于非专业背景的转行者来说，入行可能需要更久一点，建议6-12个月的预留时间是合理的。而要成为一个熟练的大数据从业者，2-3年以上的项目和行业经验则是在所难免。

数据分析是一种工具，在金融、互联网、电子商务、公共服务、医疗健康等领域都有着广泛的应用。职位上，偏业务的，有数据分析师、数据产品经理、数据挖掘师等；偏技术的，有大数据工程师、架构师、算法工程师等。晋升通道，是业务主管/数据中心主任、CIO/CDO/CTO、VP、首席数据科学家。可见，数据分析对专业背景和知识素养都有相当的要求，再加之大数据在数学和计算机领域的交叉属性，从事大数据都有一定的门槛限制。

要不要转行？

要不要转行，实际上涉及到职业规划的问题。对此，曾有位哲人发表见解，”最重要的人际关系，是自己与自己的关系，知道自己要什么，不要什么“。这在转行问题上，也是一样。相对于10年以上的职业生涯，拿半年时间用来学习该项技能，还是挺划算的。

读到这儿，可能有人会说了，转行会让之前几年的经验积累统统作废。而实际上，小编认为不必过于担心，因为无论转到哪一行，社会经验和人生理念是都会发挥作用的。而之前的人际关系也类似“山不转水转”的问题，很难界定说哪类人际关系有用，哪类无用——基于这个道理，应全部视作有用。

人生的机会并不多，即使到了30岁，对大多数人来说，这也只是职业生涯的前半部分，完全不必缩头缩脑患得患失。要知道，不怕失去，才有可能收获更多。如果有了明确的发展规划，何不义无反顾地投入到新的开始呢？！

如何转行？

明确了要不要转行之后，就又回到如何转行的问题上来了。

如果你尚未毕业，建议先打好基础，学好概率与数理统计、数值分析、多元分析、泛函分析、软件工程等，可以选修软件工程、数据库原理、一到两门编程语言；同时掌握分析工具（如spss/R/matlab）原理；有时间的话，可以参加一些数据建模方面的大赛，对自己能力提升和职业生涯会很有帮助。

如果，你已经是一个从业者。要想跨入数据分析师，也许很多情况下你只能从“工人”做起（这意味着在很大长一段时间内，你的工作内容都可能比较枯燥，做的也都是没有“技术”含量的内容），但当你慢慢成为“熟练工”时，随着行业知识和技能的积累，你也会走上“数据设计师”之路。开始从事“高大上”或更有技术含量的工作。

一、至少花三个月掌握技术

正所谓“磨刀不误砍柴工”，作为一个技术工种，至少花3-6个月的时间学习大数据分析相关基础知识，是不过分的。时间分配如下：

1、花1个月时间，学习数据库、sql知识，推荐《深入浅出 SQL(中文版)》；

2、花1-2个月时间，学习基础的统计学知识，搜集统计学学习资料，列个统计学书单；

3、花1个月时间，学习最基础的数据挖掘模型，推荐《数据挖掘导论（ PDF 中文完整版）》；

4、花1个月时间，掌握一门基础的挖掘软件。

基础夯实之后，还要保持持续的学习能力。坚持学习各类知识，不仅限于技能层面。

二、选择感兴趣的行业

如果，你还没毕业。

可以在结合热门行业的基础上，分析自己的兴趣。选定一个行业后，可以通过互联网，熟悉所行业对应的商业模式。有机会，也可以参加一些同行的沙龙或分享，以了解该岗位的人都在做什么。并对比自己当前的知识储备，有针对性地补充知识。

如果，你已是从业者。

选择本行业或相关行业，会让你的行业经验和业务知识，更好地发挥优势。

三、开始寻找机会

对于跨行业转入的同学，当你做好上述准备的时候。就可以着手找个机会了：

1、内部转岗

2、选择中、小型公司，先入门，再修行。

几点建议

1）勤动手，多实践：

看书和看视频是学不会数据分析的。多参加一些项目，撸起袖子玩数据（make your hands dirty）。通过校内大赛增加实践机会，入行时候找一份能接触到数据的岗位（任何岗位都可以，市场、运营之类的职位很多）。

工具先从一个容易上手的学起，excel/spss/sql都可以，顺手就行，后续可以再学高级工具如R或者python，用到专精同样有杀伤力。

2）终身学习：

前面已经讲过了，即便用一段时间掌握了大数据分析相关基础知识，也还是要在之后的从业生涯里，保持持续的学习力。

因为，大数据是一个实践性很强的学科，从实际工作中获取的知识和能力是学校里无法获得的，企业最终看重的，也是一个人的实际工作能力。你可以在学习社区通过分享和交流，补充课外知识和get新技能。

推荐的书籍

1.《统计学习基础数据挖掘、推理与预测》

尽管应用的是统计学方法，但强调的是概念，而不是数学。《统计学习基础:数据挖掘、推理与预测》内容广泛，从有指导的学习（预测），到无指导的学习；从神经网络、支持向量机，到分类树、提升等主题，应有尽有，许多例子还附以彩图，是同类书籍中介绍最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战，这导致了统计学领域新工具的发展，并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。

2.《模式分类》第二版

除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外，读者将会发现新增了许多近25年来的新理论和新方法，其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。

3.《推荐系统实践》

过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础，介绍了评价推荐系统优劣的各种标准(比如覆盖率、满意度)和方法(比如AB测试)，总结了当今互联网领域中各种和推荐有关的产品和服务。

4.《深入搜索引擎–海量信息的压缩、索引和查询》

理论和实践并重，深入浅出地给出了海量信息数据处理的整套解决方案，包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要，更重要的是给出了实践中可能面对的各种问题及其解决方法。

5.《概率论与数理统计》

这本书不用过多介绍了吧，普遍大学里大一时期的教科书，只恨当年没听课啊，现在正在慢慢啃。

6.《大数据：互联网大规模数据挖掘与分布式处理》

主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。

7.《Web数据挖掘》

信息检索领域的书籍，该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础（包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制），然后系统地描述了Web挖掘的基础知识，着重介绍基于超文本的机器学习和数据挖掘方法，如聚类、协同过滤、监督学习、半监督学习，最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。

8.《数据之巅》

对大数据追根溯源，提出当前信息技术的发展，已经让中国获得了后发优势，中国要在大数据时代的全球竞争中胜出，必须把大数据从科技符号提升成为文化符号，在全社会倡导数据文化。

9.《深入浅出统计学》

本书涵盖的知识点包括：信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等，完整涵盖AP考试范围。

10.《矩阵分析》

本书从数学分析的角度论述矩阵分析的经典方法和现代方法，取材新，有一定的深度，并给出在多元微积分、复分析、微分方程、量优化、逼近理论中的许多重要应用。主要内容包括：特征值、特征向量和相似性，酉等价和正规矩阵，标准形，Hermite矩阵和对称矩阵，向量范数和矩阵范数，特征值和估计和扰动，正定矩阵，非负矩阵。

11.《统计学习方法》

本书全面系统地介绍了统计学习的主要方法，特别是监督学习方法，包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外，每章介绍一种方法。叙述从具体问题或实例入手，由浅入深，阐明思路，给出必要的数学推导，便于读者掌握统计学习方法的实质，学会运用。为满足读者进一步学习的需要，书中还介绍了一些相关研究，给出了少量习题，列出了主要参考文献。

12.《机器学习导论》

对机器学习的定义和应用实例进行了介绍，涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器，局部模型、隐马尔可夫模型。分类算法评估和比较，组合多学习器以及增强学习等。

《机器学习及其应用》：全书共分14章，内容涉及因果推断、流形学习与降维、迁移学习、类别不平衡学习、演化聚类、多标记学习、排序学习、半监督学习等技术和协同过滤、社区推荐、机器翻译等应用，以及互联网应用对机

最后编辑于：2017.12.06 01:37:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

给大数据入行者的，建议和书单

入行必读：与大数据相关的工作职位有哪些？

要不要转行？

如何转行？

推荐的书籍

推荐阅读更多精彩内容