带你了解什么是大数据，什么是数据分析，什么是数据挖掘

一、大数据是什么？

大数据的诞生和发展：

2005，google，GFS（google file system），后来成为了HDFS的前身。

2006，google，MapReduce。

2007，google，Apache基金会用于创建Hadoop的开源社区。

2007，google，BigTable，HBase分布式数据库。

2009，Spark。

大数据的工作：

1.数据获取：爬虫，数据接口获取，传感，开源数据（UCI）

2.数据存储：HDFS、Hbase、HIVE

3.数据分析：MapReduce离线计算引擎，Spark内存计算引擎……

4.数据挖掘：机器学习算法

大数据的工作内容：

1.大数据是一个综合概念，其中涉及到的第一步就是数据的获取。

2.数据获取之后，下一步就是需要进行数据的处理和存储。将各种各样的数据进行格式化操作，并且最终存储到本地，进行分析和留存。

3.在有了大量可靠的数据源之后，下一步需求针对数据进行分析操作，通过分析可以获知所需要的各种信息。

4.如果需要做到机器学习或者进一步获取数据信息，就需要做数据挖掘的工作。

如果你对大数据开发感兴趣，想系统学习大数据相关知识的话，可以加入大数据技术学习交流扣扣群：458数字345数字782，欢迎添加，私信管理员，了解课程介绍，获取学习资源

二，数据分析是什么？数据挖掘是什么？

数据分析和数据挖掘都是从数据库中发现知识、所以我们称数据分析和数据挖掘叫做数据库中的知识发现，严格意义上来讲，数据挖掘才是真正意义上的数据库中的知识发现。其简称为KDD。

数据分析是从数据库中通过统计、计算、抽样等相关的方法，获取基于数据库的数据表象的知识，也就是指数据分析是从数据库里面得到一些表象性的信息。

数据挖掘是从数据库中，通过机器学习或者是通过数学算法等相关的方法获取深层次的知识（比如属性之间的规律性，或者是预测）的技术。

所以，仅仅只依靠于数据分析，我们只能获取到一些表象性的信息，但是通过数据挖掘我们可以获取到很多相关的深层次的规律或者是一些预测性的信息。

数据挖掘的特点：

1.数据集大：只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。

2.不完整性：数据挖掘使用的数据，往往都是不完整的。

3.不准确性：又叫做噪声数据，在商业中用户可能会提供假数据，那么在工厂环境中或者是其他条件比较艰苦的环境里，那么正常的数据往往会收到电磁或者是辐射干扰，那么这个时候，数据就会出现超出正常值的情况。那么这些不正常的绝对不可能出现的数据，就叫做噪声，但是噪声需要和离群点分辨开。离群点指的是偏离了普遍规律的数据样本，它可能和基础规律相差很大，但是我们并不能说这个样本是一个噪声数据。比如，100岁的老人，买电脑，虽然这个情况基本不可能看的到，但是这个情况仍然是可能出现的。所以我们无法认为其是一个噪声假数据。所以我们称之为这个100岁老人的样本是一个离群点。

4.模糊的：模糊的可以和不准确性相关联。由于数据不准确，所以我们只能在大体上对数据进行一个整体的观察。或者我们可以解释为由于涉及到隐私信息，无法获知到具体的一些用户的内容，那么这个时候，我们如果想要做相关的分析操作，就只能在大体上做一些分析。无法精确进行判断。

5.随机性：随机性有两个解释，一个是获取的数据随机，我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的操作都属于是灰箱操作。

数据挖掘的基本步骤：

数据输入：输入要挖掘的数据

数据转换：做数据预处理的步骤，通过了数据转换之后，数据就是一个可用的，无冗余的、完整的、统一的、精确的数据集。

（1）数据清理：对噪声数据和不一致的数据做清除操作。或者是对重复数据做删除，或者是对缺失数据做填充（众数、中位数、自己判断）。

（2）数据集成：将多个数据源的数据做整合。

（3）数据选择：选择需要的数据做挖掘。比如一个人买不买电脑和他叫什么没什么关系，所以就不需要输入到机器中进行分析。

（4）数据变换：不同的数据被通过数据集成集成到一起的时候，就会出现一个问题，叫做实体识别问题。那么数据变换除了解决实体识别问题以外，还需要统一不同的数据库的数据的格式。

数据挖掘：通过数学算法对数据进行分析，得到数据之间的规律，或者是我们所需要的知识。

模型评估：判断机器得到的模型是否是可用的，比如一个机器学习之后得到一个模型，该模型预测的准确率为10%，那么就不可用。所以模型评估很大一部分是在判断机器学习得到的知识是否是准确的，可用的。

数据输出：将结果数据输出，并且将得到的知识表示出来，对应了知识表示。

数据在进行挖掘时，我们往往都是通过某些属性得以判断某个结果，比如一个患者得了感冒、发烧、咳嗽、那么我们可以判断其得了肺炎，这个时候，我们是通过感冒、发烧、咳嗽三个属性分析得出是否得肺炎，那么前三个属性就是我们分析所需要的属性。通过对某些属性的分析我们就可以得到某一些结果。这就是数据挖掘的基本规律。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,013评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,205评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,370评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,168评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,153评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,954评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,271评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,916评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,382评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,877评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,989评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,624评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,209评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,199评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,418评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,401评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,700评论 2赞 345

带你了解什么是大数据，什么是数据分析，什么是数据挖掘

推荐阅读更多精彩内容