据估计,每天会创建2.5百万兆字节的数据,我们需要将这些前所未有的大量数据妥善储存以便日后访问以及对其进行分析。这些数据量大到需要使用鲜为人知的单位来衡量,如ZB,PB和EB。随着公司搜集到的数据越来越多,并希望能方便的访问这些数据,这对技术和基础设施的要求更高了。21世纪初,行业分析师Doug Laney提出了一个大数据的构成定义,这个“三V”定义现在已经得到了广泛认可。“三V”定义使用三个标记来描述什么是大数据 – 不仅是对数据量的描述。
数量- 公司通常存储大量交易信息、社交媒体生成信息以及机器对机器和传感器数据。如果没有技术来处理如此大量的数据,那么如何高效地存储这些数据就成了一个问题。
速度- 我们可以通过RFID标签,传感器和其他新技术来高速传输数据流。如何实时存储和构建数据流是处理大数据的另一个挑战。
多样化- 数据有着各种各样的格式 - 从传统数据库到非结构化视频,电子邮件,音频和交易数据。所有这些类型的数据都必须被整合和结构化。
在这里我还是要推荐下我自己建的大数据学习交流群:532218147,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。
大数据的这三大特点向某些公司提出了挑战,它们需要结构化,可访问而且实惠的方式存储数据。这些挑战使得企业难以正确分析和利用大数据。这对企业来说是一个损失,就其性质而言,大数据通常包含与客户行为有关的有用信息。有了这么多的原始信息,有用的模式可以用来预测未来的客户行为。这只是大数据能带给公司潜力的众多方式之一。幸好新技术和处理数据的方式已经出现,可以满足公司不断增长的妥善存储和利用大数据的需求。一些新颖的技术对于大数据存储和利用很有用。
面向列的数据库- 传统数据库更注重行数而不是列,虽然传统数据库在联机事务处理速度和更新速度方面非常高效,但他们的短板随着数据量不断增长逐渐显露,变得更加不稳定,查询时间可能变得非常长。面向列的数据库有更快查询时间并可以高度压缩数据,它的缺点是通常只允许批量更新,导致更新时间较长。
无SQL数据库和无模式数据库- 这包括了如键值对存储方式和文本存储方式的数据库类型,这样的数据库专注于访问可能是结构化,非结构化或半结构化的大量数据。这些数据库超越了传统数据库的许多限制,例如读写一致性,从而在操作中获得可扩展性以及分布式处理的特点。
MapReduce- MapReduce允许针对大量服务器提供广泛的作业执行扩展能力。实现MapReduce由两个主要任务组成:Map任务和Reduce任务,Map任务将输入数据集转换成键值对的新集合,Reduce任务将Map任务的输出组合为一组精简的键值对。
Hadoop - 这是一个非常受欢迎的Map Reduce实现,是完全开源的大数据处理平台。它将处理分布到服务器集群上,Hadoop能够处理多种数据源,既可以通过汇总数据来执行大规模处理,也可以通过读取数据库来运行处理器密集型机器学习作业。Hadoop特别适用于处理大量不断变化的数据,包括基于位置的天气数据和交通传感器数据,社交媒体数据或机器事务数据。与使用高端的硬件设备处理大数据的方法相反,Hadoop的弹性来自其检测和处理应用层故障的能力。
PLATFORA - 作为MapReduce的一个低级实现,Hadoop需要大量的开发人员知识来操作。PLATFORA自动将用户的查询转换为Hadoop作业,并创建一个抽象层来组织Hadoop中存储的数据集。
大规模并行处理(MPP) -也称为“松散耦合”或“无共享”系统,MPP是由200及以上个处理器协同处理的程序,每个处理器都使用自己的操作系统和内存,运行着该程序的不同部分。处理器将使用消息接口进行通信。
Hive- Hive使传统商业智能应用程序能够查询Hadoop集群中的数据。最初由Facebook开发,它已经开源了一段时间。Hive使任何人都能对存储在Hadoop集群中的数据进行查询,就像用户操作传统数据仓库一样。这使得Hadoop对商业智能应用的用户来说更加熟悉。
数据流分析- 数据流分析技术可以过滤和分析来自不同实时数据源以及各种数据格式的大量数据。它非常了解数据并对流数据进行实时分析计算。企业可以通过成本效益的流分析来在企业界取得成功。流分析用于股票交易分析,金融服务和数据保护服务等主要行业。
分布式文件系统- 它允许客户端节点通过网络访问文件,多个用户可以共享和存储文件和资源。然而,客户端节点可以通过网络协议访问不易被访问的磁盘空间。因此,它为服务器和客户端创建了一定的文件系统访问权限。
以上大多数这些技术或多或少都利用了云计算。由于难以处理大数据,云计算成为了使各规模的公司能利用传统被浪费的数据潜力的关键。云计算能提高速度并减少开销,使得小公司也能存储、分析并利用这些数据。
由于计算机和互联网的容量不断提高,越来越多的数据需要以易于分析和访问的方式存储,传统的存储方法无法以高效且经济的方式实现。新的思路、方法和技术正在推动商业用户存储和处理大数据的能力。由于分析和利用非结构化数据的困难,许多企业不使用非结构化数据,随着处理大数据技术的不断发展并大到更高的效率,企业便更容易地利用这些数据