上一讲咱们说到,咱们正在进入一个以数据的深度发掘和交融应用为特征的才智化阶段——信息化3.0年代,即大数据年代。 身处大数据年代,咱们必定很关怀究竟什么是大数据呢?这期,让咱们来看看大数据的概念。 首要,咱们来看看国家规范《GB/T 35295 -2017 信息技能 大数据 术语》中对大数据的一个界说:大数据是指具有体量巨大、来历多样、生成极快、且多变等特征而且难以用传统数据体系结构有用处理的包括
上一讲咱们说到,咱们正在进入一个以数据的深度发掘和交融应用为特征的才智化阶段——信息化3.0年代,即大数据年代。
身处大数据年代,咱们必定很关怀究竟什么是大数据呢?这期,让咱们来看看大数据的概念。
首要,咱们来看看国家规范《GB/T 35295 -2017 信息技能 大数据 术语》中对大数据的一个界说:大数据是指具有体量巨大、来历多样、生成极快、且多变等特征而且难以用传统数据体系结构有用处理的包括很多数据集的数据。
咱们看这个界说的“体量巨大、来历多样、生成极快、且多变”,很明显的给出了大数据的几个特征,也便是咱们常说的4V特性:volume(体量)、velocity(速度)、variety(多样性)、variability(多变性)。
volume(体量),是指构成大数据的数据集的规划。跟着传感设备,移动电子设备,网络宽带的的成倍增加,在线买卖和交际网络,每天出产不计其数兆字节的数据,数据规划也在不断的急剧增加。全球数据量正以史无前例的速度增加,数据的存储容量从TB级扩展到BB数量级(下图贴一张数据存储容量的单位换算,领会一下)。数据量大仅仅一个数量级的问题,并没有详细的容量规范。
variety(多样性),数据品种冗杂。大数据触及多种数据类型,包括结构化数据和非结构化数据。不只有传统的联系型数据库,还有来自网页内容、网页日志文件、点击流、查找索引、社会化媒体、电子邮件、文件、主被迫体系感应数据等各式各样原始的、结构化的、半结构化的和非结构化的数据,其中非结构化数据的规划占总数据量的80%~90%;
velocity(速度),单位时刻的数据流量。数据的生成到耗费,时刻窗口十分小,可用于生成决议计划的时刻很少。
variability(多变性),大数据其他特征,即体量、速度和多样性等特征都处于多变状况,体现出大数据的复杂多变。
别的界说中说到的“难以用传统数据体系结构有用处理的包括很多数据集的数据”,面临如此海量的数据,跟着软件环境和硬件环境的不断改进,数据处理应用领域需求的继续扩展,那些惯例的软件东西,比方传统数据库是没有办法进行处理的,这就必然会加快技能的不断改造,数据库技能与其它软件技能的加快交融,新的、更高一级的分布式数据库体系应运而生,大数据技能开端走进信息技能的舞台。