一、大数据时代
随着大数据时代的悄然到来,信息技术的发展发生了巨大的变化,深刻影响了社会生产和人民生活的各个方面。各国都非常重视大数据技术的研究和产业发展,并将大数据提升为国家战略。企业和教育机构也加大了技术、资本和人员投资,以在第三次信息浪潮中领先,引领市场。
三次信息化浪潮
第一次信息浪潮
1980年左右,个人电脑的普及,使电脑进入企业和家庭,大大提高了社会生产力,也使人类迎来了第一波信息浪潮,Intel、IBM、苹果,MicroSoft、联想等这些企业是这一时期的标志
第二次信息浪潮
1995年左右,人类开始全面进入互联网时代。互联网的普及使世界成为一个地球村。每个人都可以在海洋中享受信息冲浪。此时,迎来了第二波信息浪潮。在此期间,雅虎、谷歌、阿里巴巴、百度等互联网巨头应运而生。
第三次信息浪潮
时隔15年,也就是2010年左右,物联网、云计算和大数据的快速发展推动了第三次信息浪潮。各企业投入人力物力,希望成为这波技术的标杆。
2.大数据时代的到来
数据生成模式的改变是大数据时代的一个重要原因。到目前为止,人类社会数据的生成大致分为三个阶段:操作系统、用户原始内容和感知系统
操作系统阶段
从数据库的诞生开始。基于数据库的大型超市销售系统、银行交易系统、股市交易系统、医疗系统、企业客户管理系统等。它们利用数据库保存大量的结构化关键信息,以满足企业的业务需求。在这个阶段,数据是被动的,只有当业务真正发生时,新的数据才会产生并保存到数据库中。例如,股票市场的交易系统只有在交易发生后才会生成相关记录。
用户原创内容阶段
互联网的出现使数据传播更快。web1.0时代主要以门户网站为代表,强调内容组织和数据共享,不产生互联网用户本身。以用户原创内容为特征的真实数据爆发web2.0时代,如wiki,博客、微博、微信、论坛等技术。此时,用户是数据的生成者,尤其是当智能手机普及时,用户可以随时随地发送微博和照片,数据量急剧增加。
感知系统阶段
物联网的发展最终导致了人类社会数据量的第三次飞跃。物联网包含大量的传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备,无时无刻不在产生大量数据。与web2.与0时代的人工数据生成相比,物联网中的数据自动生成将在短时间内生成更密集、更大的数据,使人类社会迅速进入大数据时代
二、大数据概念
随着大数据时代的到来,大数据已经成为互联网信息技术行业的一个流行词。关于什么是大数据,大家都认可大数据的4V说法。大数据的四个V,也就是说,大数据的四个特征是大数据量(Volume)、数据种类繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。
1、数据量大(Volume)
如果印刷在纸上的文字和图形也被视为数据,那么人类历史上的第一次数据爆炸发生在造纸和印刷发明时期。从1986年到2010年,全球数据增长了100倍。
随着时间的推移,我们正生活在一个数据爆炸的时代。
今天,世界上30%的设置是互联网,在不久的将来,更多的用户将成为互联网用户,汽车、电视、家用电器、生产机器和其他设备也将完全连接到互联网。随着物联网的推广和普及,各种传感器和摄像头将遍布我们工作和生活的各个角落,这些设备将自动生成大量数据。
根据著名的咨询机构IDC(Internet Data Center)据估计,人类社会产生的数据每年以50%的速度增长,即每两年翻一番,这被称为大数据摩尔定律。
这意味着人类在过去两年产生的数据量相当于之前产生的所有数据量之和。预计到2020年,世界将有35个ZB与2010年相比,数据量将增长近30倍。
2.数据种类繁多(Variety)
科学研究、企业应用和大数据来源众多Web应用程序不断生成新数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等都呈现出井喷式增长,涉及的数量非常巨大TB级别跃升到PB级别。
大数据数据类型丰富,包括结构化数据和非结构化数据者约占10%,主要指存储在关系数据库中的数据,后者约占90%。主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。
对数据处理和分析技术提出了新的挑战,并带来了新的机遇。
处理速度快(Velocity)
大数据时代的数据生成速度非常快。在Web 2.新浪可在1分钟内生产2万条微博,Twitter苹果可以下载10万条推文.应用7万次,淘宝可销售6万件商品,人人网可发生30万次访问,百度可产生90万次搜索查询,Facebook浏览量可产生600万次。著名的大型强子对撞机(LHC),每秒产生约6亿次碰撞,每秒产生约700次碰撞MB有成千上万台计算机分析这些碰撞的数据。
大数据时代的许多应用需要根据快速生成的数据给出实时分析结果,以指导生产和生活实践。因此,数据处理和分析的速度通常需要达到秒响应,这与传统的数据挖掘技术有本质的不同。
新兴的大数据分析技术通常采用集群处理和独特的内部设计,以实现海量数据快速分析的目的。以谷歌公司的Dremel例如,它是一个可扩展的交互式实时查询系统,用于只阅读嵌套数据的分析。通过结合多级树形执行过程和列数据结构,可以在几秒钟内完成万亿张表的聚合查询,系统可以扩展到成千上万CPU满足谷歌数万用户的操作PB需要级数据,可在2~3秒内完成PB查询等级数据。
价值密度低(value)
虽然大数据看起来很漂亮,但价值密度远低于传统关系数据库中现有的数据。在大数据时代,许多有价值的信息分散在海量数据中。以社区监控视频为例。如果没有事故,连续生成的数据毫无价值。当发生盗窃等事故时,只有记录事件过程的短视频才有价值。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。
如果这个例子不够典型,我们可以想象另一个更大的场景。假设电子商务网站希望通过微博数据进行有针对性的营销,为了实现这一目标,必须建立一个大数据平台,可以存储和分析新浪微博数据,以便根据用户的微博内容预测有针对性的商品需求趋势。愿景很好,但实际成本很高,可能需要数百万元来建立整个大数据团队和平台,企业销售利润的最终增长可能远低于投资。从这个角度来看,大数据的价值密度较低。
三、大数据的影响 1 大数据对科学研究的影响
图灵奖得主吉姆,著名数据库专家·格雷(Jim Gray)博士观察并总结认为,人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式,具体如下:
(1)第一范式:实验
在最初的科学研究阶段,人类使用实验来解决一些科学问题,著名的披萨斜塔实验就是一个典型的例子。1590年,伽利略在披萨斜塔上进行了两个铁球同时着陆的实验,得出了两个不同重量的铁球同时着陆的结论,推翻了亚里士多德物体下降速度与重量成比例的理论,纠正了1 错误0年的错误结论。
(2)第二种范式:理论
随着科学的进步,人类开始采用各种数学、几何、物理等理论来构建问题模型和解决方案。例如,牛顿第一定律、牛顿第二定律和牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础。它的广泛传播和应用对人们的生活和思想产生了重大影响,极大地促进了人类社会的发展和进步。
(3)第三种范式:计算:
随着1946年人类历史上第一台计算机ENIAC人类社会的诞生开始进入计算机时代,科学研究也进入了以计算为中心的新时代。人类可以利用计算机的高速运算能力,通过设计算法和编写相应的程序来解决各种问题。计算机具有存储容量大、运行速度快、精度高、可重复执行等特点。它是科学研究的利器,促进了人类社会的快速发展
(4)第四种范式:数据
随着数据的不断积累,其宝贵价值日益体现。物联网和云计算的出现促进了事物从量变到质变的发展,开启了人类社会新的大数据时代。一切都将以数据为中心,从数据中发现问题,解决问题,真正体现数据的价值。大数据将成为科学家的宝藏,从数据中挖掘未知模式和有价值的信息,为生产和生活服务,促进科技创新和社会进步。
2 大数据对思维方式的影响
维克托·迈尔·舍恩伯格在《大数据时代:生活、工作和思维的巨大变化》一书中明确指出,大数据时代最大的变化是思维方式的三种变化:全样性而不是抽样、效率而不是准确性、相关性而不是因果关系。
(1)全样而非抽样
过去,由于数据存储和处理能力的限制,在科学分析中,通常采用抽样法,即从全集数据中提取部分样本数据,通过分析样本数据来推断全集数据的整体特征。通常,样本数据的规模远小于全集数据,因此数据分析的目的可以在可控的成本内实现。现在,我们迎来了大数据时代。大数据技术的核心是大量数据的存储和处理。理论上,分布式文件系统和分布式数据库技术几乎没有提供的数据存储能力,分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力。因此,有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得到分析结果,速度之快,超乎我们的想象。就像前面我们已经提到过的,谷歌公司的Dremel可以在2~3秒内完成PB级别数据的查询。
(2)效率而非精确
过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,因为,抽样分析只是针对部分样本的分析,其分析结果被应用到全集数据以后,误差会被放大,这就意味着,抽样分析的微小误差,被放大到全集数据以后,可能会变成一个很大的误差。因此,为了保证误差被放大到全集数据时仍然处于可以接受的范围,就必要确保抽样分析结果的精确性。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。现在,大数据时代采用全样分析而不是抽样分析,全样分析结果就不存在误差被放大的问题,因此,追求高精确性已经不是其首要目标;相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心。
(3)相关而非因果
过去,数据分析的目的,一方面是解释事物背后的发展机理,比如,一个大型超市在某个地区的连锁店在某个时期内净利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出发生问题的原因;另一方面是用于预测未来可能发生的事件,比如,通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量,因为,人们关注雾霾的一个直接结果是,大家会想到购买一个口罩来保护自己的身体健康。不管是哪个目的,其实都反映了一种“因果关系”。但是,在大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”。比如,我们去淘宝网购物时,当我们购买了一个汽车防盗锁以后,淘宝网还会自动提示你,与你购买相同物品的其他客户还购买了汽车坐垫,也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关性,但是,并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。
3 大数据对社会发展的影响
大数据将会对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式;大数据应用促进信息技术与各行业的深度融合;大数据开发推动新技术和新应用的不断涌现。
(1)大数据决策成为一种新的决策方式
根据数据制定决策,并非大数据时代所特有。从20世纪90年代开始,数据仓库和商务智能工具就开始大量用于企业决策。发展到今天,数据仓库已经是一个集成的信息存储仓库,既具备批量和周期性的数据加载能力,也具备数据变化的实时探测、传播和加载能力,并能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策(如宏观决策和长远规划等)和战术决策(如实时营销和个性化服务等)的双重支持。但是,数据仓库以关系数据库为基础,无论是数据类型还是数据量方面都存在较大的限制。现在,大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析,已经成为受到追捧的全新决策方式。比如,政府部门可以把大数据技术融入“舆情分析”,通过对论坛、微博、微信、社区等多种来源数据进行综合分析,弄清或测验信息中本质性的事实和趋势,揭示信息中含有的隐性情报内容,对事物发展做出情报预测,协助实现政府决策,有效应对各种突发事件。
(2)大数据应用促进信息技术与各行业的深度融合
有专家指出,大数据将会在未来10年改变几乎每一个行业的业务功能。互联网、银行、保险、交通、材料、能源、服务等行业领域,不断累积的大数据将加速推进这些行业与信息技术的深度融合,开拓行业发展的新方向。比如,大数据可以帮助快递公司选择运费成本最低的最佳行车路径,协助投资者选择收益最大化的股票投资组合,辅助零售商有效定位目标客户群体,帮助互联网公司实现广告精准投放,还可以让电力公司做好配送电计划确保电网安全等。总之,大数据所触及的每个角落,我们的社会生产和生活都会因之而发生巨大而深刻的变化。
(3)大数据开发推动新技术和新应用的不断涌现
大数据的应用需求,是大数据新技术开发的源泉。在各种应用需求的强烈驱动下,各种突破性的大数据技术将被不断提出并得到广泛应用,数据的能量也将不断得到释放。在不远的将来,原来那些依靠人类自身判断力的领域应用,将逐渐被各种基于大数据的应用所取代。比如,今天的汽车保险公司,只能凭借少量的车主信息,对客户进行简单类别划分,并根据客户的汽车出险次数给予相应的保费优惠方案,客户选择哪家保险公司都没有太大差别。随着车联网的出现,“汽车大数据”将会深刻改变汽车保险业的商业模式,如果某家商业保险公司能够获取客户车辆的相关细节信息,并利用事先构建的数学模型对客户等级进行更加细致的判定,给予更加个性化的“一对一”优惠方案,那么,毫无疑问,这家保险公司将具备明显的市场竞争优势,获得更多客户的青睐。
4 大数据对就业市场的影响
大数据的兴起使得数据科学家成为热门职业。2010年的时候,在高科技劳动力市场上还很难见到数据科学家的头衔,但此后,数据科学家逐渐发展成为市场上最热门的职位之一,具有广阔发展前景,并代表着未来的发展方向。
互联网企业和零售、金融类企业都在积极争夺大数据人才,数据科学家成为大数据时代最紧缺的人才。据麦肯锡预测,在未来几年内,仅美国本土就可能缺少14万~19万具备数据深入分析能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师,也大概存在150万人的缺口。
根据中桥调研咨询2013年7月针对中国市场的一次调研结果显示,中国用户目前还主要局限在结构化数据分析方面,尚未进入通过对半结构化和非结构化数据进行分析、捕捉新的市场空间的阶段。但是,大数据中包含了大量的非结构化数据,未来将会产生大量针对非结构化数据分析的市场需求,因此,未来中国市场对掌握大数据分析专业技能的数据科学家的需求会逐年递增。
尽管有少数人认为,未来有更多的数据会采用自动化处理,会逐步降低对数据科学家的需求,但是,仍然有更多的人认为,随着数据科学家给企业所带来的商业价值的日益体现,市场对数据科学家的需求会越发旺盛。
5 大数据对人才培养的影响
大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。一方面,数据科学家是一个需要掌握统计、数学、机器学习、可视化、编程等多方面知识的复合型人才,在中国高校现有的学科和专业设置中,上述专业知识分布在数学、统计和计算机等多个学科中,任何一个学科都只能培养某个方向的专业人才,无法培养全面掌握数据科学相关知识的复合型人才。另一方面,数据科学家需要大数据应用实战环境,在真正的大数据环境中不断学习、实践并融会贯通,将自身技术背景与所在行业业务需求进行深度融合,从数据中发现有价值的信息,但是,目前大多高校还不具备这种培养环境,不仅缺乏大规模基础数据,也缺乏对领域业务需求的理解。鉴于上述两个原因,目前国内的数据科学家人才并不是由高校培养的,而主要是在企业实际应用环境中通过边工作边学习的方式不断成长起来的,其中,互联网领域集中了大多数的数据科学家人才。
在未来5~10年,市场对数据科学家的需求会日益增加,不仅互联网企业需要数据科学家,类似金融、电信这样的传统企业在大数据项目中也需要数据科学家。由于高校目前尚未具备大量培养数据科学家的基础和能力,传统企业很可能会从互联网行业“挖墙角”,来满足企业发展对数据分析人才的需求,继而造成用人成本高企,制约企业的成长壮大。因此,高校应该秉承“培养人才、服务社会”的理念,充分发挥科研和教学综合优势,培养一大批具备数据分析基础能力的数据科学家,有效缓解数据科学家的市场缺口,为促进经济社会发展做出更大贡献。
高校培养数据科学家人才需要采取“两条腿”走路的策略,即“引进来”和“走出去”。所谓“引进来”,是指高校要加强与企业的紧密合作,从企业引进相关数据,为学生搭建起接近企业应用实际的、仿真的大数据实战环境,让学生有机会理解企业业务需求和数据形式,为开展数据分析奠定基础,同时,从企业引进具有丰富实战经验的高级人才,承担起数据科学家相关课程教学任务,切实提高教学质量、水平和实用性。所谓“走出去”,是指积极鼓励和引导学生走出校园,进入互联网、金融、电信等具备大数据应用环境的企业去开展实践活动,同时,努力加强产、学、研合作,创造条件让高校教师参与到企业大数据项目中,实现理论知识与实际应用的深层次融合,锻炼高校教师的大数据实战能力,为更好培养数据科学家人才奠定基础。
在课程体系的设计上,高校应该打破学科界限,设置跨院系跨学科的“组合课程”,由来自计算机、数学、统计等不同院系的教师构建联合教学师资力量,多方合作,共同培养具备大数据分析基础能力的数据科学家,使其全面掌握包括数学、统计学、数据分析、商业分析和自然语言处理等在内的系统知识,具有独立获取知识的能力,并具有较强的实践能力和创新意识。
四、大数据的应用 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹,表1-4是大数据在各个领域的应用情况。
领域 大数据的应用
金融行业 大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用 汽车行业 利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活 互联网行业 借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放 餐饮行业 利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式 电信行业 利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施 能源行业 随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理地设计电力需求响应系统,确保电网运行安全 物流行业 利用大数据优化物流网络,提高物流效率,降低物流成本 城市管理 可以利用大数据实现智能交通、环保监测、城市规划和智能安防 生物医学 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘 体育和娱乐 大数据可以帮助我们训练球队,决定投拍哪种题材的影视作品,以及预测比赛结果 安全领域 政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪