大数据5V特征:
(1)Volume(大量,“大体量”汇聚)
巨大的数据量,包括采集,存储,管理,分析的数据,超出了传统数据库软件工具能力范围的海量数据的集合。其计量单位至少是P(千T)级,也有更高的E(百万T)级或者Z(十亿T)级。
(2)Velocity(高速,“时效性”流动)
数据增长速度快,处理速度也快,获取数据的速度也快。这是大数据区分于传统数据挖掘的最显著特征。
(3)Variety(多样性,“多样性”处理)
数据种类和来源多样性,包括不同种类的数据,比如文本图像音频视频定位等,以及各种结构化,半结构化,非结构化数据和不连贯的语义或句意。
(4)Value(低价值,“高价值”转化)
数据的价值性,在实际操作过程中,可以使用的数据量是海量的,但是并不是所有的数据都是有价值的,有价值的数据比例低于10%,即海量数据中的价值密度相对较低,这是我们最需要解决的问题。
(5)Veracity(真实,“高质量”治理)
数据的真实性、准确性和可信赖度,即大数据的质量,大数据的内容是与真实世界息息相关的,真实不一定代表准确,但一定不是虚假数据,这也是数据分析的基础。提升数据的质量,质量提高了,会间接地提高其他的4V水平。