给大数据入行者的,建议和书单

入行必读:与大数据相关的工作职位有哪些?

国内某知名互联网公司,有关数据分析师岗位的,要求描述:

1. 计算机、统计学、数学等相关专业本科及以上学历;

2. 具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;

3. 三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;

4. 对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;

5. 具备良好的逻辑分析能力、组织沟通能力和团队精神;

6. 富有创新精神,充满激情,乐于接受挑战

其中,前三条属硬件要求。一般而言,对于有专业基础(计算机、统计学、数学等相关专业)的同学,入行需要3个月以上的学习与准备时间;而对于非专业背景的转行者来说,入行可能需要更久一点,建议6-12个月的预留时间是合理的。而要成为一个熟练的大数据从业者,2-3年以上的项目和行业经验则是在所难免。

数据分析是一种工具,在金融、互联网、电子商务、公共服务、医疗健康等领域都有着广泛的应用。职位上,偏业务的,有数据分析师、数据产品经理、数据挖掘师等;偏技术的,有大数据工程师、架构师、算法工程师等。晋升通道,是业务主管/数据中心主任、CIO/CDO/CTO、VP、首席数据科学家。可见,数据分析对专业背景和知识素养都有相当的要求,再加之大数据在数学和计算机领域的交叉属性,从事大数据都有一定的门槛限制。

要不要转行?

要不要转行,实际上涉及到职业规划的问题。对此,曾有位哲人发表见解,”最重要的人际关系,是自己与自己的关系,知道自己要什么,不要什么“。这在转行问题上,也是一样。相对于10年以上的职业生涯,拿半年时间用来学习该项技能,还是挺划算的。

读到这儿,可能有人会说了,转行会让之前几年的经验积累统统作废。而实际上,小编认为不必过于担心,因为无论转到哪一行,社会经验和人生理念是都会发挥作用的。而之前的人际关系也类似“山不转水转”的问题,很难界定说哪类人际关系有用,哪类无用——基于这个道理,应全部视作有用。

人生的机会并不多,即使到了30岁,对大多数人来说,这也只是职业生涯的前半部分,完全不必缩头缩脑患得患失。要知道,不怕失去,才有可能收获更多。如果有了明确的发展规划,何不义无反顾地投入到新的开始呢?!

如何转行?

明确了要不要转行之后,就又回到如何转行的问题上来了。

如果你尚未毕业,建议先打好基础,学好概率与数理统计、数值分析、多元分析、泛函分析、软件工程等,可以选修软件工程、数据库原理、一到两门编程语言; 同时掌握分析工具(如spss/R/matlab)原理;有时间的话,可以参加一些数据建模方面的大赛,对自己能力提升和职业生涯会很有帮助。

如果,你已经是一个从业者。要想跨入数据分析师,也许很多情况下你只能从“工人”做起(这意味着在很大长一段时间内,你的工作内容都可能比较枯燥,做的也都是没有“技术”含量的内容),但当你慢慢成为“熟练工”时,随着行业知识和技能的积累,你也会走上“数据设计师”之路。开始从事“高大上”或更有技术含量的工作。

一、至少花三个月掌握技术

正所谓“磨刀不误砍柴工”,作为一个技术工种 ,至少花3-6个月的时间学习大数据分析相关基础知识,是不过分的。时间分配如下:

1、花1个月时间,学习数据库、sql知识,推荐《 深入浅出 SQL(中文版)》;

2、花1-2个月时间,学习基础的统计学知识,搜集统计学学习资料,列个统计学书单;

3、花1个月时间,学习最基础的数据挖掘模型, 推荐《数据挖掘导论( PDF 中文完整版)》;

4、花1个月时间,掌握一门基础的挖掘软件。

基础夯实之后,还要保持持续的学习能力。坚持学习各类知识,不仅限于技能层面。

二、选择感兴趣的行业

如果,你还没毕业。

可以在结合热门行业的基础上,分析自己的兴趣。选定一个行业后,可以通过互联网,熟悉所行业对应的商业模式。有机会,也可以参加一些同行的沙龙或分享,以了解该岗位的人都在做什么 。并对比自己当前的知识储备,有针对性地补充知识。

如果,你已是从业者。

选择本行业或相关行业,会让你的行业经验和业务知识,更好地发挥优势。

三、开始寻找机会

对于跨行业转入的同学,当你做好上述准备的时候。就可以着手找个机会了:

1、内部转岗

2、选择中、小型公司,先入门,再修行。

几点建议

1)勤动手,多实践:

看书和看视频是学不会数据分析的。多参加一些项目,撸起袖子玩数据(make your hands dirty)。通过校内大赛增加实践机会,入行时候找一份能接触到数据的岗位(任何岗位都可以,市场、运营之类的职位很多)。

工具先从一个容易上手的学起,excel/spss/sql都可以,顺手就行,后续可以再学高级工具如R或者python,用到专精同样有杀伤力。

2)终身学习:

前面已经讲过了,即便用一段时间掌握了大数据分析相关基础知识,也还是要在之后的从业生涯里,保持持续的学习力。

因为,大数据是一个实践性很强的学科,从实际工作中获取的知识和能力是学校里无法获得的,企业最终看重的,也是一个人的实际工作能力。你可以在学习社区通过分享和交流,补充课外知识和get新技能。

推荐的书籍

1.《统计学习基础 数据挖掘、推理与预测》

尽管应用的是统计学方法,但强调的是概念,而不是数学。《统计学习基础:数据挖掘、推理与预测》内容广泛,从有指导的学习(预测),到无指导的学习;从神经网络、支持向量机,到分类树、提升等主题,应有尽有,许多例子还附以彩图,是同类书籍中介绍最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。

2.《模式分类》第二版

除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外,读者将会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。

3.《推荐系统实践》

过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础,介绍了评价推荐系统优劣的各种标准(比如覆盖率、满意度)和方法(比如AB测试),总结了当今互联网领域中各种和推荐有关的产品和服务。

4.《深入搜索引擎–海量信息的压缩、索引和查询》

理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。

5.《概率论与数理统计》

这本书不用过多介绍了吧,普遍大学里大一时期的教科书,只恨当年没听课啊,现在正在慢慢啃。

6.《大数据:互联网大规模数据挖掘与分布式处理》

主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。

7.《Web数据挖掘》

信息检索领域的书籍,该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。

8.《数据之巅》

对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。

9.《深入浅出统计学》

本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。

10.《矩阵分析》

本书从数学分析的角度论述矩阵分析的经典方法和现代方法,取材新,有一定的深度,并给出在多元微积分、复分析、微分方程、量优化、逼近理论中的许多重要应用。主要内容包括:特征值、特征向量和相似性,酉等价和正规矩阵,标准形,Hermite矩阵和对称矩阵,向量范数和矩阵范数,特征值和估计和扰动,正定矩阵,非负矩阵。

11.《统计学习方法》

本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。

12.《机器学习导论》

对机器学习的定义和应用实例进行了介绍,涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器,局部模型、隐马尔可夫模型。分类算法评估和比较,组合多学习器以及增强学习等。

《机器学习及其应用》:全书共分14章,内容涉及因果推断、流形学习与降维、迁移学习、类别不平衡学习、演化聚类、多标记学习、排序学习、半监督学习等技术和协同过滤、社区推荐、机器翻译等应用,以及互联网应用对机

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容