米乐6|米乐电竞|米乐官网
米乐6
米乐6
电话:0851-85824918
传真:0851-85824918转8018
E-mail: gyjlykj888@163.com
地址:贵阳市花果园中央商务区2号楼1单元44层
  您当前位置:首页 > 产品中心
大数据生态系统最底层的数据存储

来源:米乐6    发布时间:2023-10-09 16:09:35

  大数据计算发展至今,已形成了一个百花齐放的大数据生态,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及等等,我们都能够找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线,梳理整个大数据计算生态组件及其功能。

  大数据计算生态的系列文章,拟包含的系列文章有:《大数据计算生态之数据存储》《大数据计算生态之数据计算》《大数据计算生态之数据交互》《大数据计算生态之计算调度》以及《大数据计算生态之数据工具》,该系列文章将从底层存储到顶层交互的各个组件进行讲解,帮大家厘清大数据体系,丰富大数据知识。

  大数据计算生态(如上图)最上层为应用层,也就是实际与研发人员交互的层,例如分析人员只需要在应用层的Hive中写SQL即可,具体的任务分配和运行交给Hive来调用中间层的MapReduce引擎来做处理。Spark的GraphX、MLlib等组件可拿来进行图分析和机器学习等。中间层的Spark、Flink等作为核心计算引擎提供批计算和流计算支持。左边ZK和Oozie是任务配置协调,右边的是日志采集、迁移或者获取数据相关的组件,再向下是资源调度管理系统,最底层是数据存储,一个大数据平台就要提供能进行多模型数据存储的能力,比如除了最常见的关系数据,还有时序、文档、键值和图等数据。

  有些组件所处的层次其实还值得继续讨论,例如ElasticSearch其实也是一个存储组件,Hbase在作为存储组件的时候其实也作为查询计算组件使用,Flink也可以放到最上层,作为研发人员直接交互的组件。但整体来讲,整个大数据生态大概就是如此,大数据生态组件之间本就是相互拼接来完成特定功能。本文来具体介绍最底层的数据存储。

  存储层负责进行大数据平台的数据存储。过去的几十年,数据大部分以结构化的形式存储在关系数据库中,常见的如le和MySQL两种。随着数据越来越多样,出现了很多类型的数据库,如图数据库、键值数据库、时序数据库、文档数据库等,以及除了传统的行存数据库外,也出现了列存数据库或者文件格式。

  HDFS 是 Hadoop DistributeFile System,Hadoop分布式文件系统的简称。这一个文件系统是一个适用于大的数据集的支持高吞吐和高容错的运行在通用(廉价)机上的分布式文件系统。

  - 客户端Client对元数据的操作是指向NameNode,对用户数据的读写是通过DataNode;

  传统的数据库例如MySQL,Oracle等关系数据库,都采用的是行存储引擎,在基于行式存储的数据库中, 数据是按照行数据为基础逻辑存储单元进行存储的, 一行中的数据在存储介质中以连续存储形式存在。

  列式存储(Column-based)是相对于行式存储来说的,新兴的 Hbase、HP Vertica、EMCGreenplum 等分布式数据库均采用列式存储。在基于列式存储的数据库中, 数据是按照列为基础的逻辑存储单元进行存储的,一列中的数据在存储介质中以连续存储形式存在。

  从上图可以很清楚地看到,行式存储下一张表的数据都是放在一起的,但列式存储下都被分开保存了。所以它们就有了如下这些优缺点:

  对于传统的数据存储来讲,无论是行存还是列存,它们的存取策略都基本是一致的,整体分为两大类操作(读操作和写操作),如上图所示,读写策略可以大概总结为如下的步骤:

  随着数据多样性的发展,多种类型的数据大量涌出,相对应的NoSQL系统也出现了。例如Neo4j图存储,用来存储社交网络、知识图谱等图数据;再入近两年制造的兴起,大量工业生产生活中的时序数据,也对应出现了InfluxDB这种存储时序数据的系统;还有生产中常用的键值数据库Redis等。

  图存储分为原生图存储和非原生图存储(利用图模型加已有的存储引擎),不同的存储方案在读写图数据的时候也有不一样的策略,如下所列:

  原生图存储虽然是针对图数据自身特点而定制化开发的图存储策略,但是对于分布式的支持较差。在大数据时代,很难有一个数据管理系统能做到存储查询双高效,因此,在现实的应用中,图相关的计算存储往往是分离的,采用一些很成熟的存储引擎。

  另一种比较流行的存储就是键值对存储,键值数据库因其在不涉及过多数据关联的数据上的高效读写能力得到了广泛的应用。我们以最基本的LevelDB存储模型为例,来探索键值存储一角。

  以上就是LevelDB的读写策略,当然这只是简单的总结,其中还涉及到很多有意思的细节,你们可以继续深入探索。

  除了上面讲的行存储、列存储、键值存储以及图存储,还有文档存储,时序数据存储等,在数据规模日益扩大、数据类型日益丰富的时代,可能还会有新的存储出现,但是,只要我们掌握了现有存储的基本套路,就能快速应对和掌握新的存储形式的出现。

  内存存储也可以简单理解为缓存,缓存其实已经不是什么新概念了,无论是在操作系统还是传统的数据管理系统,都有缓冲区或者缓存的概念,主要是为了平衡CPU和磁盘之间的速度的差异,提高效率。在大数据的应用场景中,由于数据量比较大,数据的处理逻辑也很复杂,因此一些中间过程结果可以复用的数据就能够最终靠分布式缓存来进行临时存储,其他的任务就能够尽可能的防止数据的二次加工来提升效率。

  Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问加载速度能比现有方案快几个数量级。

  Alluxio的特点是数据存储与计算分离,两部分引擎能够直接进行独立的扩展。上层的计算引擎(如Hadoop, Spark)能够最终靠Alluxio访问不同数据源(Amazon S3, HDFS)中的数据,通过Alluxio屏蔽底层不同的数据源,做到数据的无感获取。

  随着新硬件的出现和发展,基于磁盘、新硬件、缓存以及内存的多级存储体系得到了慢慢的变多的研究,随着多级存储的发展,必将迎来新的技术进步。

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉

  去年,功率 SiC 市场宣布了一系列具有影响力的合作,有趣的是,不仅是在之前看到的晶圆和材料层面,而是在整个功率 SiC

  中的应用日益重要,并受到慢慢的变多的重视。地物光谱仪是一种使用光谱学技术来分析地物特性的设备。它可以测量地表物质的光谱响应,从而提供科学家以及管理者必要的信息

  随着时间的推移,我们正真看到了在VMEbus中添加功能的专业化,并且出现了CompactPCI和AdvancedTCA等其他总线。每个新规范和附录都有助于解决新的挑战,通常迎合较窄的应用空间或垂直市场需求。现在我们有多个

  #硬声创作季 #云计算 云计算-1408.02 大型架构配置-Hadoop

  #硬声创作季 #云计算 云计算-1408.02 大型架构配置-Hadoop

  #硬声创作季 #云计算 云计算-1408.01 大型架构配置-Hadoop

  #硬声创作季 #云计算 云计算-1408.01 大型架构配置-Hadoop

  允许用户通过谷歌HomeApp、Android控件和谷歌Assistant在智能手机、扬声器和显示器上的语音命令来控制家里的设备,包括灯光、传感器、摄像头,以及更直观的控制。

  产业历程,以曙光为代表的本土厂商,在夯实技术的基础之上,正走出一条披荆斩棘的自研创新之路。

  为全家带来诸多精彩体验,通过家人共享和最多共享五位共同生活的亲属,同时将进一步简化创建儿童账户的过程。

  。STM32Cube EcosystemSTM32Cube是ST公司开发的一套

  ,致力于使STM32的开发变的更简单,并且100%开源免费。在开始介绍

  STM32Cube MCU Packages(STM32外设控制)首先介绍一下

  去年9月3日,华为如期在德国IFA会议上发表演讲,华为正式对外发布了很多信息,尤其是朋友们重视的华为鸿蒙操作

  作为联盟成员中华为唯一的战略硬件合作伙伴,欧普照明将为联盟做出重要贡献。凭借其在照明方面的专业相关知识,欧普照明将与华为合作开发go global

  的主管。在此职位上,她与合作伙伴和影响者密切合作,以基于Arm的技术创建破坏性的AI应用程序。她对Tech for Good特别感兴趣,并且坚信AI能够推动社会变革。

  。技术企业通过视频识别技术,使得视频内容得以解析成各类可以解读、可以分析的信息,为整个

  Discourse将人员,信息,企业,商业和密码货币联系起来,形成一个完整的

  。它将显着减少信息流的消耗,降低用户和企业的商业交易成本,堪加利润。 DIZ代币将作为Discourze

  Rhonda Dirvin提到了Linley Group最近发表的一份白皮书,其中第一句话写道:随着芯片出货量超过1300亿颗,对许多SoC设计师而言,Arm架构已经变得像呼吸一样熟悉。这让他为之一振,Arm

  PrepayWay AG, 创立于瑞士楚格,致力于打造一个全新的国际商业

  ,是一家利用智能合约技术为企业及个人提供在线托管服务,并综合多语种电子商业合同模板,国际智能仲裁等法律解决方案为一体

  是公私合作伙伴关系的一个明确的综合模型,创建了一条管道,全面支持学生,同时也加强他们在科学,技术,工程,艺术和数学方面的教育

  数字区块链(数字链 LCC)是常见的比特币和以太坊之外的第三种专业型区块链

  ,完全独立开发完成,POW机制,通过价值传输协议(“Value Transfer Pro-tocol”)来实现全行

  根据公告,黑莓公司与技术公司ONEBIO合作开发了区块链支持的“超安全”

  ,其中信息可由患者,实验室和物联网(IoT)生物识别设备输入。一旦输入,

  在人工智能技术推波助澜下,语音助理成为智能家庭新焦点,国内互联网业者百度、阿里巴巴与腾讯(BAT)顺势透过智能音响抢占智能家庭市场入口,凭借在网络产业累绩的

  原意是指在一定的地域内,生物与环境形成的统一的整体。随着经济社会的发展,现在我们提到

  的强大也反衬出企业的强大。今年的STM32中国峰会,意法半导体(以下简称:ST)携手合作伙伴一起为我们展示了ST MCU的

  微服务并不是孤立存在的,它们存在于一个环境里,微服务在这个环境里进行交互。把这种环境看成微服务

  2016 年 2 月 15 日,中国北京 — 赛灵思公司(Xilinx, Inc. (NASDAQ: XLNX))今天宣布一项新的

  投资计划,并由赛灵思旗下的投资机构“Xilinx 技术投资 (Xilinx Technology Ventures)”全权执行。

上一篇:创新存储架构突破IPFS算力瓶颈 西部数据的这些技术探索
下一篇:IT职位解析:大数据开发工程师
米乐6
米乐电竞
新闻中心
公司新闻
产品中心
软件产品
米乐官网
解决方案
网站地图

微信二维码扫描
联系电话:0851-85824918  手机:0851-85824918转8018  邮箱:gyjlykj888@163.com
Copyright 2020   米乐6|米乐电竞|米乐官网  版权所有.  地址:贵阳市花果园中央商务区2号楼1单元44层   
免责声明:本网站部分资料来自互联网,如果涉及到版权问题,请及时通知本站,我们尽快删除或更改。    米乐6