资讯详情

数据库横向对比与前沿技术分析探讨

互联网和移动互联网的快速发展带来了数据生成率的巨大增长,每时每刻都有数十亿的设备在生产大量的数据。 从数据生成渠道的角度来看,主要分为生产线设备、物联网设备、传感器、无线网络等两类。 根据国际数据公司的数据生成速度IDC根据监测数据,2013年全球大数据库储量为4.3ZB(相当于47.24亿个1TB容量移动硬盘);2014年是6.6ZB;2015年是8.6ZB;2018年是33.0ZB……预计在 2030 1000多亿量级的网络传感设备将产生巨大的数据。

图1:2016年至2020年全球每年产生的数据量(单位:ZB,%)
图1:2016年至2020年全球每年产生的数据量(单位:ZB,%)

面对每天产生的大量数据,人们如何快速、好地找到和呼叫它们?因此,数据库是帮助人们快速提取数据价值的利器。当然,还有其他类似的概念和工具,如数据仓库、数据市场、数据湖等,旨在解决我们日常面临的数据存储、数据转换、数据分析等问题BI商业智能等一系列工作。

现代商业社会对数据库性能的要求促进了数据处理基础设施和技术的发展。下图显示了以数据库为中心的数据处理基础设施和技术的数据到大数据,从大数据到快速数据,从快速数据到深度数据 ,从深数据到图数据。

关系80-2010年关系数据库主导阶段;

2010-2020年大数据(NoSQL、以数仓、数湖、大数据框架为主的大数据时代;

图计算(图数据库)时代可预见于2020-2030年。

图2:数据处理基础设施和技术的进化路线

当企业IT信息化基本完成后,数字化转型和全面智能化(数智化)将向前推进。 但是,SQL/RDBMS已经是有40年历史的老旧的技术框架了,即便是变身为数仓、数湖、NoSQL、NewSQL或者批量集成框架,本质上仍然使用二维表模式对现实世界的业务场景进行数据建模,在处理大量、动态数据、复杂、深度查询时仍会出现严重的性能问题,依然会受到SQL限制关系建模和查询僵化和浅层缺陷。 我们认为,智能时代的核心技术必须是图形数据库(图形计算和存储引擎),可以进行高维数据建模和处理高维数据关联,而低维数据SQL类型的数据库注定会逐步消亡。 从数据库的全球国际标准来看,这个结论只是SQL(结构化查询语言)与GQL从两个标准可以看出,前者自1983年以来已经经历了40年的沧桑,将于2023年推出首个国际标准。 例如,银行业各项指标的计算和归因分析将涉及银行明细数据、分行、条线、客户群、客户经理、集团、供应链、指标子项、客户账户信息等维度的综合计算。 用 SQL 与关系数据库计算的复杂性是一个天文数字(多表关联会导致笛卡尔积现象,计算复杂度指数级增加,时间消耗巨大,导致有限资源和时间内无法完成计算);图形计算是加和而不是乘积的关系,计算复杂度指数级降低-和RDBMS具有指数级的性能优势。 换言之,用 SQL 为了实现,它将消耗大量的计算和存储资源,效率非常低。任何复杂的指标测量或归因分析都无法完成,但通过图纸计算,可以实时实现,硬件资源消耗较少-较低 TCO,更高的 ROI,这也是图数据库的颠覆性优势之一——高性能、高性价比(以及灵活性和白盒)。

图3:关系数据库(数仓、数湖) 由中多表连接引起的笛卡尔积问题

知名信息咨询公司Gartner2019-2021年关于数据和分析技术(Data & Analytics Technology Trends)在几份报告中,图分析明确提出(Graph Analytics)作为十大核心科技发展趋势之一,以年复合增长率100%为代表的细分市场将继续增长。预计到2025年,80%的商业智能和商业决策(BI)通过图分析和计算(即图数据库系统)实现创新。

图4:Garther报告

很多我们熟悉的科技公司,比如脸书(Facebook)、Google、推特(Twitter)、领英(Linkedln)等国际巨头科技公司,其起步的秘密就是图技术,还有一些金融服务公司,例如高盛(Goldman Sachs)、美国银行(Bank of America)、BlackRock(黑石),贝宝(Paypal)在图计算和图数据库框架上构建核心技术产品。 根本原因是图纸的核心竞争力更有利于帮助企业进行数组资产管理、数据管理和数据分析,实现数据智能图技术的真正意义,以更高效、深度、准确、白盒的方式揭示数据的内部关联。 传统意义上,图数据库被归类为NoSQL一种数据库(虽然不准确,但从数据库标准的维度来看,过去40年数据的开发只有两套标准,一套是SQL,另一套是GQL,即图查询语言,仅此一条就可以佐证图数据库会成为未来的主流数据库,而SQL最终会消亡。图数据库最终将独立组建,这是后话。 广义上,其他非关系数据库还包括列数据库、宽表数据库、键值库(由于其结构和接口简单,严格意义上不完整)、文档数据库、时间序列数据库等。NoSQL 一般来说,数据库分为以下几类: ? 键值(Key-Value) : 性能和简单性 ? 宽列(Wide-Column):体量 ? 文档(Document):数据多样性 ? 时序(Time Series):IOT 数据、时序优先 ? 图(Graph) : 高维建模 深数据 快数据

图5:NOSQL类数据库存储结构的进化

在众多 NoSQL 在类数据库中,最好用来解释数据建模的灵活性-无模式(Schema-Free 或 Demi-Schema)例如图数据库——图数据库不需要任何预定义的模式或表结构,除了点和边。 这种极其简化的概念与人类如何思考和存储信息非常相似——人们通常不在脑海中设置二维和僵化的表结构, 因为人脑可以在高维、动态的数据模型中随机应变(触类旁通、举一反三、关联、发散、聚合、下钻),构建实体与关系。

图6:关系网络图谱(局部)

上图展示的是一个典型的关系图谱(网络图),其是在一张大图上进行实时路径查询时所动态生成的一张子图。绿色节点为初始顶点,紫色节点为终止顶点。两者之间有15层(跳跃)间隔和100条相关路径。每条路径都有不同类型的边缘连接到相邻的两个顶点。不同类型(属性)的边缘用不同的颜色呈现,以表达不同类型的相关关系。 最近 10 几年来,全球 IT 出现在市场上 10 从传统形数据库服务提供商,从传统的、非常学术的 RDF(资源定义框架)模式图, 基于原生图概念构建的LPG(标签属性图) 或 PG(属性图) 传统的图形数据库和那些 SQL 数据库上或 NoSQL 建在数据库上的各种非原上。 目前,行业图数据库的架构分为三类: ·第一类是基于传统关系数据库的图计算,代表产品,如 Cosmos DB、Oracle PGX等; ·第二类是基础 Hadoop/Spark 或 NoSQL 存储引擎图数据库, 星环、创邻等代表产品JanusGraph、Nebula等; ·第三类是原图数据库流派,如Neo4j、TigerGraph、Ultipa,它们与前两种类型的区别在于计算和存储的(Native Graph)。

从图数据库产品性能进化的角度来看,

·第一代是基于非原生图架构的JanusGraph(其存储引擎基于第三方NoSQL性能瓶颈明显,及时性差); ·第二代代表玩家是最早的原始图数据库Neo4j(缺点在于基础Java结构,性能瓶颈明显,难以在大规模、复杂、实时的场景中推广); ·第三代并行图数据库TigerGraph(主要挑战是使用门槛高,面向数据科学家,二次开发困难,基于单边图概念,图形建模不灵活); ·最新一代是了。

图7:图数据库的优势、架构类型以及产品进化

图数据库的发展要解决的并不是数仓、湖仓系统所鼓吹的无限的数据存储,而是要解决复杂查询、深度查询的计算时效性的问题! 因此,高性能的图数据库一定是优先解决算力的问题,即具备高算力,让计算引擎成为一等公民(注:在传统的RDBMS数据库中,计算是附着于存储的二等公民,试想每次查询都需要大量访问硬盘读取数据的查询,效率必然是极低的!)。 图数据库赋能的业务场景也必然和传统数据库、大数据框架有所不同,无论是风控反欺诈、智能营销与推荐,还是实时决策、智能分析(Smart BI/Analytics)、数据治理等场景。

 

标签: mos环振式数字加速度传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台