资讯详情

大数据技术概述与入门

一、大数据概述

大数据概念最初来自于2009年的《自然》杂志, Ginsberg2011年2月,《科学》杂志通过社会调查研究了大数据对人们生活的影响,利用大数据搜索引擎查询数据,检测流行性流感活动。随后,麦肯锡于2011年5月发布了《海量数据、创新、竞争、提高生成率的下一个新领域》的报告,对大数据的概念产生了很大的影响。麦肯锡的报告指出,大数据是指超过传统数据库工具获取、存储、管理和分析能力的数据集,已渗透到许多行业和业务功能领域,并逐渐成为一个重要的生产因素。

随着信息技术全面融入社会生活,信息量已经积累到引发变化的程度。不仅数据量在增加,数据的增长速度也在加快。图灵奖(计算机最高奖)获得者杰姆·格雷(Jim Gray)每18个月,全球新增信息量就是计算机历史上所有信息量的总和。但事实上,在过去的30年里,全球数据量每两年增加10倍左右,远远超过了计算机领域的新摩尔定律。如今,积累的数据量已经无法用传统的方法来处理,大数据时代的到来使得大数据技术发展迅速。

数据来源:Statista,2020-11

图1 全球每年产生的数据总量

1. 批处理和流处理

大数据技术包括批处理和流处理两种不同的数据处理方法。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果,而流处理则是随时计算进入系统的数据。两者的主要区别在于数据处理的顺序和不同的操作对象。批处理在获取数据后首先存储,将数据存储为数据集,然后操作数据集并得到结果;流处理在获取数据后进行数据操作。操作对象系统实时获取的每个数据项,而不是整个数据集,然后在实时生成结果后归档或存储。如图2所示。

图2 数据处理模式

批处理适用于需要访问批数据的计算,如求和、求方差等。批处理系统考虑数据量,在处理大量数据时表现良好。但将大量数据进行统一处理往往会花费较长的时间,且高频的读写操作会进一步导致处理速度降低,因此对数据处理的实时性要求较高的场景一般不会选择批处理方式,而会选择”即收即算”的流处理方式。流处理适用于对同一类数据进行同一操作的场景。它通常用于处理必须响应变化或峰值并在一段时间内关注变化趋势的数据。理论上,流处理可以继续处理无限数据。

批处理通常是大多数技术方案的选择。然而,在数据量大、实时数据要求高的金融行业,批处理的应用也很多,尤其是在风险控制、定量等应用场景中。

2.技术图谱

大数据技术最初主要集中在数据存储、处理和计算两种基本技术上,然后开发了数据处理、数据分析、信息安全等与大数据相匹配的技术,形成了庞大的大数据技术系统,不仅适用于金融业,也广泛应用于大数据技术的其他领域,图3是大数据系统中根据数据分析流程划分的相关技术图谱。

图3 大数据技术图谱

数据采集技术是数据分析的第一步,主要是信息采集、传输和预处理。数据采集可通过传感器采集、物联网设备终端上传、网络爬虫获取等方式将数据传输到数据存储技术设施,并通过数据线、无线电、互联网等数据传输手段将数据传输到数据存储技术设施。由于采集数据可能有大量无意义且易于识别的数据,这些数据也可以通过预处理过程删除,以避免大量无意义的数据占据存储空间。预处理过程主要涉及数据管理技术。它主要是为了提高数据的可用性,整理低价值密度数据,去除低质量、低价值、不符合标准的数据,整合具有更高价值密度的数据。数据管理技术包括元数据管理技术、数据集成技术、数据建模技术等,主要功能为数据整合与数据资产管理。数据存储技术主要是为了应对大量数据的生产和发展。大数据时代的数据具有数据量大、数据源异构多样、数据及时性高的特点。传统的数据存储技术难以应对不断生成和异构的大量数据,因此产生了新的存储技术,应用广泛的存储技术主要包括图形数据库、文档数据库、时序数据库、关系数据库、分析数据库、k-v数据库、文件存储技术、对象存储技术等。

数据处理技术主要包括数据计算和数据分析。基于各业务对有效数据的需求,数据计算技术与数据存储技术共同发展,也突破了集中架构和关系数据库的约束,包括分布式计算框架、分布式批处理计算框架、分布式流处理计算框架等。有效提高数据计算能力,显著增加可处理和计算的数据范围。在数据计算的基础上,数据分析技术进一步挖掘价值,将数据与实际业务相结合,实现数据资源内涵价值的获取。数据分析主要包括数据统计技术、数据可视化技术、数据挖掘技术、深度学习技术、图形分析技术等,通过复杂的处理数据增值,在工业建设、商业贸易和科研方面具有更大的价值,并将分析结果应用于实际场景。

信息安全是保证大数据时代数据安全的核心技术。在不断挖掘数据价值的同时,需要注意数据安全。数据泄漏、滥用甚至丢失时有发生,对企业甚至社会都有很大影响。身份认证、数据脱敏、隐私计算等技术正在不断发展。目前,信息安全技术是企业、社会甚至国家大数据建设的重要组成部分。

二、大数据技术原理

1.数据获取

(1)数据采集

        数据的采集方式非常多,这里仅介绍传感器、日志文件、网络爬虫和数据库四种最为常用的采集方式。

        传感器采集方式主要将环境中的物理信号转化为数字信号,包括图像、声音、电压电流、压力压强、振动、温度、距离等多种类型,这种信息的采集场景往往在移动端的使用、智能监测探测设备日常工作、科学研究设施等。传感器采集的信息往往含有大量的无效信息,需要在预处理过程中进行初步的数据筛选。

        日志是非常常用的数据源,信息系统的日志是以特殊形式记录的系统运行过程,包括用户的交互操作、系统的返回数据、每一个操作是否成功,及其成功码或是报错码等等,在分析用户行为时有很大的价值。常见的服务器日志有三种格式类型,都是ASCII文本格式,其分别为通用日志文件格式 (NCSA)、扩展日志文件格式 (W3C) 和IIS日志文件格式 (Microsoft)。常见的日志采集系统包括高可用性、高可靠性和分布式处理的Flume、可扩展性和高容错的Scribe、轻量化且常用作数据预处理的Logstash等。

        网络爬虫是一种通过自定义规则自动抓取互联网内容的程序,主要目的是从互联网中提取出半结构化和非结构化数据,进行数据的自动整理后将其转变为结构化数据,便于下一步对数据进行分析。也有通过访问API(应用程序接口)直接获取数据的,但一般被采集方服务器会限制访问次数。网络爬虫需要遵守被爬取网站的robots协议,协议中以特殊格式对可以被爬取与不可以被爬取的数据进行说明,因为在爬取数据时自动化的请求会对网络造成很大的压力,可能会影响到被爬取网站的正常运行。若网络爬虫严重违反robots协议,将被视为攻击或是侵犯隐私行为,可能会引起法律纠纷。

        数据库的采集主要应用于主动被采集的场景,数据库数据的价值密度大、采集效率高、可用框架多,因为数据库直接对数据采集方开放,可以将数据库数据的采集理解为读取数据的一种。在进行采集时,一般会采用ETL(数据抽取、转换和加载)工具对数据进行采集和预处理。

(2)数据传输

        数据传输也是数据获取的一个重要组成部分,是将采集到的数据发送至数据中心等数据存储设施的过程。数据传输主要分为两个部分,一个是从数据源传送至数据中心的过程,传输速度与传输媒体与链路管理方式有关,另一个是数据中心进行内部调整的过程,传输速度与数据中心的传输协议与整体架构有关。

        数据传输的媒体分为有线和无线两种,常见的有线传输媒体有双绞线、同轴电缆、光纤等,常见的无线传输方式有有长波通信、短波通信、微波通信、激光通信、红外通信等,链路管理方式则决定信号如何在媒体上进行传输。

        数据中心的常用的传输协议为TCP(传输控制协议)和UDP(用户数据报协议)两种,TCP协议是一种面向连接的、基于字节流、可靠的的传输层通信协议,而UDP一种面向报文的、无连接的、高效传输的协议,两种传输协议各有优劣,TCP协议更可靠但首部开销高,UDP协议更高效且支持多对多通信但不可靠。

(3) 数据预处理

        数据预处理是提高数据质量的有效手段,主要包括数据集成、数据清洗、冗余消除等技术。

        数据集成是将不同的数据源数据进行集中,解决各个数据源之间的异构性,其中异构性包括数据管理系统的异构性、通讯协议异构性、数据模式的异构性、数据类型的异构性、取值的异构性、语义异构性等。数据集成有三种主要模式,分别是将数据源之间创建映射和转换的联邦数据库模式、将源数据进行复制后操作的数据仓模式、将源数据组合为虚拟数据集的中介着模式。

        数据清洗的作用是消除数据里面的异常,以提高后期数据分析的效率和准确性。数据清洗可以在数据集成时发挥作用,也可以作为单独的功能对某个数据库数据进行清洗,清洗后的数据一般会保存在清洗前的数据库之中。数据异常主要包括数据格式与数据值出错的语法类异常、数据表述不全面或重复的语义类异常、数据记录有严重缺失的覆盖类异常。针对这几种异常,数据清洗会依次进行数据的解析、转换、审计与异常标注,再依据数据的异常情况选择合适的剔除异常的工作流,之后执行定义好的异常剔除工作流,最后在处理和控制阶段对清洗结果进行检查和纠正。

        冗余消除主要是消除数据集中重复或过剩的数据,冗余检测与数据压缩技术可以在一定程度上减少数据冗余,减少数据的传输开销与存储空间的浪费,但同时也会增加额外的计算负担,以及带来有效数据被删除的风险。摄像头等监控设备的无效信息就是最常见的冗余数据,减少冗余时将先数据段进行标识并将标识储存在标识列表中,之后当发现有标识重复时就认为是数据冗余,对冗余的数据段进行消除处理。

        除了以上三类数据清洗技术外,还有特征提取技术、数据变形技术、数据重生成技术等,实际应用的中的数据预处理的选择需要与具体场景相结合。

2.数据存储与计算

(1)存储硬件

        数据存储是数据处理的基础,大数据系统中的存储系统子系统需要具备能够持久可靠地容纳数据的存储基础设施和用于查询并提取数据的可伸缩对外访问接口。目前的较为常见的存储基础设施有用于存储临时数据的随机存取存储器(RAM)、由多个碟片构成的磁盘阵列(HDD)、低延迟但高成本的存储级存储器(SSD)等。对外访问的接口协议与存储设施相关,常见的服务器和存储设备之间的数据通讯协议有信号总线与数据总线复用的PATA(Paralle ATA)协议、I/O总线型的SCSI(Small Computer System Interface)协议、通过光纤与光纤交换机互联的FC接口(Fibre Channel)协议三种。

(2)存储管理

        除了存储设施与接口外,数据存储子系统还需要使用数据管理框架对数据进行有效的处理,依据数据量的不同,数据管理框架可分为轻型数据库与大数据存储平台两种。

        轻型数据库主要包括关系型数据库(SQL)、非关系型数据库(No SQL)和新型数据库(New SQL)。SQL是围绕关系代数和元组关系演算构建的,具有较强的稳定性、安全性和可预测性,但在面对大量数据时的拓展性和存储效率相对较差,典型的SQL有SQL Server、Oracle、MySQL、PostgreSQL等;No SQL中的No是Not Only的意思,意为不仅仅是SQL,No SQL采取的是最终一致性原则,若在特定时间段内没有特定数据项的更新,则最终对其所有的访问都将返回最后更新的值,其具有读写性能高、易于扩展和分片、可用性高的特点,但容易出现数据丢失,No SQL的主要代表为MongoDB、Redis、CouchDB等;New SQL也是一种关系型数据库,其结合了前两者的优势,同时具备一致性与水平可扩展性,是一种相对较新的数据库形式,但目前的普及度还比较低,需要专有软件或仅适用于特定场景,常见的New SQL系统包括Clustrix、GenieDB、ScalArc、Schooner、VoltDB等。

分布式存储平台指大型的分布式存储数据库或集群,其存储设备分布在不同的地理位置,数据就近存储以降低数据传输成本,还可采用多个性能较差的存储设备进行分布式部署以降低存储成本。分布式存储的主要将大规模的数据划分为小规模的数据,合理分配至多个不同的存储节点上,将数据做分散化处理。大多数分布式存储平台都采用主/从结构。以知名大数据架构Hadoop的分布式文件系统(Hadoop Distributed File System,HDFS)为例,其主节点成为名称节点(NameNode),主要负责负责管理从节点并保存管理元数据(元数据包括文件的所有者和权限、文件到数据节点的映射关系等);从节点称为数据节点(DataNode),主要负责管理用户的文件数据块。待存储的文件会按照固定的大小切成若干块后分布式存储在若干个数据节点上,数据节点会定期向名称节点汇报自身保存的块信息,而名称节点则会负责保持文件的副本数量。分布式文件系统的中的数据通常还会存为多个副本,放在不同节点上,以保证单个节点宕机不会影响整个数据系统的稳定运行。

(3)分布式计算

        在解决了大规模数据高效存储的问题后,就可以将目光转向大规模数据高效处理的问题了。与存储的解决方案相似,大数据计算的解决方案也采用了分布式的概念,分布式的管理程序运行在大规模计算机集群上,集群中通常由成本较低的低性能服务器构成,在执行分布式任务时,多个节点同时执行主节点下发的不同计算任务,并最后由主节点将计算结果进行整合,得到最终的计算结果。并行计算可以大幅提高程序性能,实现高效的批量数据处理,从而获得海量的计算能力。常见的分布式计算批处理系统主要有MapReduce、spark等,流处理系统主要有Storm、S4、Flume、streams等,当然还有批处理与流处理融合的系统,例如Flink、Google dataflow等。

        以业界目前较为常用批处理框架MapReduce的原理为例,其将数据抽象为一系列键值对,在处理过程中对键值对进行转换,将复杂的、运行于大规模集群上的并行计算过程高度地抽象为Map和Reduce两个过程。MapReduce中的主节点称为JodTracker,负责集群资源管理和任务管理,负责集群资源的分配、监控分节点状况、资源使用量等信息,并将总任务拆分为多个分任务下发给分节点,跟踪总任务和分任务的执行进度情况等信息;分节点称为TaskTracker,主要负责结点任务管理与执行,与主节点的心跳机制通信,接受主节点命令并执行任务,并定时向主节点汇报资源使用情况。

        流处理的方式与批处理有些差异,以较为常见的Storm框架为例,其主节点称为Nimbus,负责分发代码、分配任务、检测故障等工作,是任务调度中心;从节点称为Supervisor,负责执行任务;此外还有Zookeeper节点,负责主从节点之间的协调工作。在storm工作的过程中,主节点创建一个配置信息,并写入Zookeeper节点中,所有从节点监听Zookeeper节点,获得所在节点所需执行的任务并执行。

3.数据分析

        数据分析是指将原始的数据通过分析后得到更多有效信息,以便了解历史情况、监控当前状况、推测分析原因、预测未来发展或辅助决策等。一般为了保证数据处理效率,会采用分布式计算的方法,与分布式存储共同使用相关的解决方案,且根据大数据处理的场景、需求和数据类型不同,有多种不同的数据分析方法,包括数据挖掘、统计分析、数据可视化等。

        根据分析深度,可以将数据分析分为描述性分析、规则性分析和预测性分析三种。

        描述性分析是基于历史数据对进行曾经发生的事情进行描述,是最简单的一种数据分析类型。例如回归性分析对数据之间的关系进行描述、数据建模以模型的方式对数据进行描述、可视化技术通过图形的展示对数据进行描述。描述性分析通常用于初级商业分析、社会分析等使用场景。

        预测性分析则是使用统计分析等分析方法对数据进行更深层次的分析,进而预测未来的趋势和某些事件发生的概率。这些技术方法的功能效应是指,预测分析为每一个个体提供一个预测评分,从而决策、反馈或影响针对于大量上述个体的组织性流程。

        规则性分析通过一个或者多个动态指标显示决策结果,借助更加复杂的人工智能和机器学习等分析技术,不仅提供信息,还进一步对决策进行直接的建议,最大程度地优化流程、活动或服务,提高分析效率。

        根据分析对象的类型,又可以将数据分析分为结构化数据分析、文本分析、Web 数据分析、多媒体数据分析、社交网络数据分析、移动数据分析和光学观测与监控数据分析。

        结构化数据分析是一种用于分解信息的统计测量方法,一般用在完成数据采集后将数据分解为可用的信息,在商业数据与科学研究领域应用较广。结构化的数据有较为成熟的数据处理方式,包括回归图、聚类图和树形图等。

        文本分析是对电子邮件、文档、网页和社交媒体内容等非结构化的数据进行分析,从文本中获取有价值的信息的过程。文本分析又称为文本挖掘,大部分的文本挖掘系统都以文本表达和自然语言处理(NLP)为基础,且涉及信息检索、机器学习、数据挖掘、计算语言等多个领域。

        Web 数据分析主要是从web网站中获取有用的信息,可分为web 内容挖掘、web 结构挖掘和 web 用法挖掘等。web 内容挖掘通常使用辅助用户完成信息过滤的信息检索技术和进行数据建模和集成的数据库技术,从HTML网页、文本、图像、音频视频、元数据和超链接等数据中等网站内容中获取信息;web 结构挖掘是指通过分析技术对站点间或站点内部的链接的相似度和关系;web用法挖掘是指对web会话或行为产生的服务器访问日志、浏览器日志与cookies、会话数据和人机交互动作日志等次要数据进行分析,主要用于个性化分析和信息安全领域。

        多媒体数据分析指从图像、音视频等多媒体数据中分析出其包含的语义信息,主要包括多媒体摘要、多媒体标注、多媒体索引和检索、多媒体推荐和多媒体事件检测等。多媒体摘要是提取多媒体数据中的关键帧对音视频进行还原;多媒体标注是指通过标签对多媒体数据进行标注,以便进行数据管理;多媒体索引和检索则是对多媒体数据进行描述、存储和组织,帮助人们快速检索多媒体资源。

        社交网络数据分析指从图拓扑表示的联系性社交数据和文本与多媒体信息表示的内容性社交数据中获取有价值的信息,从被数据的角度分类,社交网络数据分析可以分为基于联系的结构分析和基于内容的分析。社交网络的数据是不断变化和更新的,且随着信息技术的发展和互联网的普及,社交网络数据分析将发挥更大的作用。

        移动数据分析指对移动设备产生的数据进行分析,因为移动数据包含大量的冗余、噪声等,给移动数据分析带来挑战。移动设备包括移动电话、传感器、射频识别终端等,目前数量增长迅速,正在成为人们日常生活中必不可少的工具,因此移动数据分析还有很大的发展空间。

4. 信息安全

        随着大数据技术的发展,数据传输、存储与计算过程中的安全问题开始凸显,信息安全技术随之发展。信息安全旨在解决数据安全问题,为数据处理系统建立和采用的技术、管理上的安全保护,为的是保护计算机硬件、软件、数据不因偶然或恶意的原因而遭到破坏、更改和泄露。目前在网络环境中常见的数据安全隐患有假冒、身份窃取、数据窃取、否认、拒绝服务、错误路由和非授权访问等,而信息安全的主要为保证数据在传输和存储过程中的保密性、完整性、可用性、可控性和不可否认性,主要的信息安全技术有身份认证、数据加密、防火墙、数据脱敏、隐私计算等。

(1)数据加密

        数据加密利用加密算法和加密密钥对待存储或是待传输的数据进行加密,使数据从明文变为密文,从而实现信息隐蔽。数据加密是计算机系统对数据进行保护的可靠手段,其运用场景有数据传输、数据存储、数据完整性鉴别和密钥管理等。加密技术主要包括对称加密、非对称加密和信息摘要算法等。

        对称加密系统采用对称密码编码技术,在加密和解密的过程中使用相同的密钥,双方需要有可靠途径在传输前拥有相同的密钥,才能保证数据安全。对称加密的效率高,且密钥越大加密的安全性越高,但同时大密钥也会带来加密与解密过程慢的问题。常用的对称加密算法有AES、 Blowfish、 RC5、 RC6等。

        非对称加密系统使用公钥和私钥组成的密钥对进行加解密和数据完整性验证,其中公钥是公开的,私钥是非公开的,如果用公钥对数据进行加密,那么只有对应的私钥才能对其进行解密和验证;如果用私钥对数据进行加密,那么也只有对应的公钥能够解密和验证。因为公钥可以对外公开,那么加密方在生成了公私钥对后,可以直接将公钥传输给数据接收方,消除了双方交换非公开密钥过程中的密钥泄露隐患。常用的非对称加密算法有 RSA、 Diffie-Hellman 密钥交换、 EIGamal、 ECC椭圆曲线加密、 DSA等。

        信息摘要算法即Hash算法,它是一种单向算法,用户可以通过Hash算法对目标信息生成一段特定长度的唯一的Hash值,却不能通过这个Hash值重新获得目标信息。因此Hash算法常用在不可还原的密码存储、信息完整性校验等。常用的哈希算法有SHA256、 SHA384、 SHA512等。

        在实际应用中,往往通过不同加密技术的组合与封装使用,以保证信息传输的安全。

(2)身份认证

        在数据系统或数据传输过程中,不同的操作者拥有不同的数字身份,系统往往会根据数字身份分配访问权限或决定是否与之通信。身份认证技术主要通过密码、证书、签字以及摘要等技术确认操作者的物理身份与数字身份是否正确对应,保证操作数据的用户拥有合法的数字身份,是保护数据安全的第一道关。

        身份认证的方法非常多,总体可以分为共享密钥认证、生物学特征认证和公开密钥加密算法认证三种。共享密钥认证是较为简单的一种身份认证方法,用户与系统共同拥有一个或一组相同的密码,访问时系统仅需判断用户提交的密码与存储在系统中的密码是否一致,是生活中最常见的一种身份认证技术;生物学特征认证是对指纹、面部特征、虹膜等每个个体特有的物理特征提取未特征信息,与系统中存储的特征数据进行比对,相似度达到设定的阈值即通过认证,生活中常见的指纹、人脸识别等就使用的生物学特征认证方法。公开密钥加密算法认证基于非对称加密技术,用户或信息发送方使用私钥对信息进行加密后,系统或信息接收方用公钥进行解密,若能解密成功则通过认证,商业中常见的数字签名就是公开密钥加密算法认证的典型应用。

(3)数据脱敏

        数据脱敏技术是为了保护身份证号、手机号、银行卡号等敏感信息,通过脱敏规则进行数据的变形,以实现保护隐私数据的目的。数据脱敏技术上可分为静态数据脱敏和动态数据脱敏两种,静态数据脱敏是将数据抽取进行脱敏处理后导入脱敏库,将脱敏数据与原数据隔离,对外开放读写权限,一般应用于需要将数据导出的数据外发场景;动态脱敏通过解析查询语句匹配脱敏条件,在匹配成功后改写查询语句或者拦截防护返回脱敏后的数据,从而实现敏感数据的脱敏,一般应用于直接连接数据的场景。

        随着数据脱敏需求的增长,早期普遍使用的脚本脱敏已经不再是行业内用户的首选,专业化的数据脱敏产品逐渐开始流行,数据脱敏产品的脱敏效率高、效果好、规范性高,可以大幅降低编写和维护脱敏脚本的时间,降低数据管理成本。

三、大数据特征

        大数据的特征目前在业界还没能达成一致,IBM将大数据的特征总结为”5V”,分别是Volume(规模)、Variety(多样)、Velocity(高速)、Veracity(真实)和Value(价值),还有其他学者或机构提出过不同的大数据描述特征,例如易变性、可视化、合法性、灵活性、准确性等,本书仅对IBM提出的五个特征进行展开介绍。

1.规模性

        数据规模大是大数据的基本特性,其名称也是由此而来。不仅当前的数据规模巨大,其增长速度也是规模性的增长。个人用户在2006年才迈进TB时代,当年全球共产生了约180EB的数据,而到了2011年时一年就产生了1.8ZB。据IDC(互联网数据中心)在2017年发布的《数据时代2025》白皮书预测,2025年全球的数据量将达到163ZB。

        也许163ZB的数据量很难被直观地理解,那么数据的基本单位换算可以帮助理解数据量:

1Byte = 8 Bit

1 KB = 1,024 Bytes 

1 MB = 1,024 KB = 1,048,576 Bytes 

1 GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes

1 TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes

1 PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes

1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes

1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes

1 YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes

由此可见,ZB级别数据的数量级非常庞大,我们已经进入了实际意义上的大数据时代。另外,随着信息化技术的不断发展,未来的大数据可能将以我们意想不到的形式发展,量子计算的发展与硬件的创新为数据量跃迁式增长提供了可能。

2. 高速性

        高速性是大数据区分于传统数据技术的另外一个显著的特征,大数据往往对数据处理速度与响应速度有很高的要求。大数据技术分为批处理、流处理和混合处理三种,但无论是哪种都对数据的处理速度有较高的要求,一般对数据进行实时分析,流处理系统的数据从获取到处理再带丢弃几乎没有延迟,以跟上数据的产生速度。而批处理在采集和存储了信息后,也需要通过分布式计算等方式尽快完成数据的处理,保证数据的处理与分析的实时性。

在对数据时效性上的需求中有一个”1秒定律”,定律认为数据分析需要在秒级内得到分析结果,否则就失去了价值。例如交通信息的更新、实时热点的推送、个性推荐算法等对数据处理的时效性要求非常高,一旦数据处理超时后,信息的价值将骤减,例如路况信息在使用大数据服务的用户通离开了大数据所分析的那条道路后,对其就不再有价值了。

3.多样性

        多样性主要体现在数据来源多、数据类型多两个方面。

        数据来源多主要是由于社会的方方面面都在产生数据,照一张照片、发一封邮件、在公司的财务系统中填报一次数据、甚至浏览一下社交网络的网页等行为都将产生数据。而从物联网终端、互联网网页、内部系统等不同类型的应用系统或设备产生的数据形式,往往也会有所不同。

        因为数据来源众多,导致了数据形式也呈多样化状态。数据形式大体可以分为三类,分别是来自于信息管理系统的结构化数据、来自物联网终端的非结构化数据和来自于互联网的半结构化数据。结构化数据的是高度组织和整齐格式化的数据,它可以直接被放入表格中,非常利于检索和使用,是比较理想的一种数据类型。非结构化数据一般不符合任何预定义的模型,可能是图像文件、视频文件、文档文件、应用程序文件等,因为其不规则性往往被存储在菲关系型数据库中,并通过NoSQL进行查询。半结构化数据则是介于结构化与非结构化之间的一种格式,半结构化数据的元数据一般具有一些内部结构,但某些字段是非结构化的,传统的工具仍然无法解析,例如电子邮件、HTML网页、数据请求等就是典型的半结构化数据。在实际的数据中,大部分数据都不是结构化的,据统计,非结构化和半结构化的数据占比在70%到85%之间。

4.真实性

        真实性指数据的准确性和可信赖度,即数据的质量。数据质量对于大数据而言是非常重要的,其重要程度超过数据的规模,在合理的分析模型下,被分析数据的质量越高,分析结果与正确结果更加接近,进而才能做出合理的预测或是对决策进行更好的辅助。追求数据的高质量不仅需要对数据来源进行判断与筛选,还需要对数据本身进行处理,通过数据清洗、数据集成、冗余消除等过程提高数据的可用性。当然,即使对数据进行了最优处理也不能保证数据的绝对正确,因为数据本身就具备不可预测性,不过即使数据具有一定程度的不确定性,但数据宏观的真实性使其仍然具备被分析的价值。

5.价值性

        尽管大数据时代的数据量非常大,但数据中的价值密度往往较低,能发挥价值的仅是其中非常少的一部分。因此,大数据的真正价值一般体现在从大量繁杂的数据中提取出有效的数据,并对其关联性进行分析,通过数据之间的关系得到某种规律,进而还可以基于历史上的数据规律通过模型计算对未来做出预测。例如通过税务数据提取出当前某金融业务从业者相关的信息,对数据进行整理后可以获得从业者的数量、工资、地域分布等,这就使信息具备了初步的价值。之后进一步地对数据进行关联性分析,从这个从业者的社交网站数据中提取并整理出其个人信息数据,与其工资进行关联,可以分析出此业务从业者的一些共性,为求职者或是此业务的初创公司提供参考,或是为上层机构提供关联性数据便于其对未来进行预测,并根据预测结果进行管理决策。

四、大数据技术发展趋势

1. 基础技术

        大数据基础技术以ApacheHadoop和MPP的大型分布式存储与计算平台为基础,利用其可扩展性不断适应新时代更大的数据量与计算量需求。但因在生产环境中,对数据存储与数据计算能力的需求往往是各自独立且在不断变化,实际应用中为满足数据存储或是数据计算中某一方的能力需求,经常会导致另一方的能力冗余,造成资源浪费。存算分离的概念为解决此问题而被提出,其将存储和计算剥离开,存储与计算相互协作但又互不干涉,可以避免资源浪费并有效降低成本。

        另外,能力服务化也是大数据基础技术的发展趋势。能力服务化指将数据计算能力形成对外开放的可以按需调用的服务。能力服务化使大数据的计算能力摆脱了对本地完整大数据平台的依赖,减少大数据系统建设过程中的人力成本与硬件成本,与云计算概念融合,实现轻量化的大数据系统。

        目前已有snowflake、阿里、腾讯、华为等众多厂商在存算分离与能力服务化方向进行研究和实践,并推出了相关的产品和服务。

2.数据分析

        传统的数据分析在实际应用中存在过度依赖人工操作、效率低、实用性差等问题,随着近年来人工智能的高速发展,数据分析开始更加广泛地应用人工智能技术提高分析的准确性与效率。在数据建模方面,机器学习可以主动提取数据特征,将数据进行标准化分类,进而自动化地建立概念数据模型;在数据挖掘方面,机器学习可以在异常检测、关联分析、聚类等方面实现自动化,提高数据挖掘效率。

        同时,社交网络数据、用户行为数据与web网页数据的大量产生使图结构数据飞速增长,针对图结构数据进行关联性分析的图分析也成为了数据处理的发展方向。”图”是指一种数据结构,由节点和关系两种元素组成,每个节点代表一个实体,每个关系代表两个节点的关联方式,可以对各种场景进行关系建模,图分析就是基于图结构数据的分析技术。图分析的代表性技术有图数据库、图计算和知识图谱等,其中图数据库以图结构存储和查询数据,数据间的关系是数据库中最重要的连接方式,一般会利用最短路径、节点度关系查找等图结构算法进行数据查询和提取;图计算是将事物和事物之间的关系进行完整的刻画、计算和分析的一门技术,目前较为知名的图计算系统有Google的首个图计算系统Pregel、卡耐基梅隆大学SELECT实验室的GraphLab系列图计算系统和Microsoft的动态图计算系统KineoGraph等;知识图谱通过对图结构数据的整合与规范,向人们提供有价值的结构化信息,已被广泛应用于信息搜索、自动问答、决策分析等领域,是推动数据价值挖掘和支撑智能信息服务的重要技术[1],与图数据结构高度相关。

3. 信息安全

        数据的安全合规流通始终是信息安全领域需要不断努力的目标,为了实现这一目标,隐私计算是近年来的信息安全的主要解决思路。隐私计算是在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术,是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构[2]。隐私计算目前有基于密码学理论的多方安全计算,和在硬件构成的安全区域进行计算的可信硬件计算两个不同的发展方向。

 

[1] 杭婷婷,冯钧,陆佳民.知识图谱构建技术:分类、调查和未来方向[J].计算机科学,2021,48(02):175-189.

[2] 李凤华,李晖,贾焰,俞能海,翁健.隐私计算研究范畴及发展趋势[J].通信学报,2016,37(04):1-11.

标签: 复用传感器阵列yb传感器interface传感器mb

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台