资讯详情

《大数据算法》一第1章 绪论

本节摘自华章计算机《大数据算法》第一章 ,第1.1节,王宏志 编着, 更多章节可访问云栖社区华章计算机微信官方账号。

第1章 绪论

1.1 大数据概述

毫无疑问,大数据已经成为一个流行的概念,但对不同领域(如业务、系统结构、数据管理等)的解释是不同的。本节总结了大数据的定义、特征和应用程序。

1.1.1 大数据是什么?

大数据的概念起源于2008年9月的自然(Nature)杂志刊登的名为“Big Data科学、计算机、经济科学、计算机、经济等不同领域专家的回应。由于其原因复杂,目前还没有公认的大数据定义。不同的研究人员从不同的领域定义大数据。以下是大数据的三个不同角度的定义。1) Kusnetzky Dan在What is “Big Data?根据本文,大数据是指数据量巨大,无法在合理时间内手动截取、管理、处理和整理的信息。2) 维克托·迈尔舍恩伯格,肯尼斯·库克耶在《大数据时代》一书中将大数据视为一种方法,即采用所有数据的方法,而不是随机分析(抽样调查)。3) 大数据研究机构Gartner报告指出,大数据是一种海量、高增长率、多元化的信息资产,需要新的处理模式才能具有更强的决策能力、洞察力、发现能力和流程优化能力。这三种定义中,第一种定义更强调处理能力,第二种定义更强调应用方法,第三种定义更侧重应用价值。本书的主题是“大数据算法”,因而更加侧重于第一种定义,即“规模巨大,无法通过人工来处理”。

1.1.2 大数据无处不在

现实生活中的数据有多大?据统计,2006年,个人用户刚刚迈进TB今年全球共产生了大约180个时代EB=180×1018字节数据;2011年,达到1.8ZB=1.8×1021字节。市场研究机构预测,到2020年,全球数据总量将增长44倍。你可能会好奇为什么会产生如此庞大的数据。让我们举几个现实中的大数据例子。社交网络 由于数据来自所有用户的参与,社交网络中的数据量非常大,增长非常快。例如,新浪微博在晚高峰时段产生了1秒以上的数据。如果你把脸书(Facebook)中国的社交网络被视为图片。2012年,该图达到8亿多个顶点,平均每个点超过130,每天增加的数据量达到500TB。

  • 科学仪器 科学仪器获得了中国遥感国家重点实验室收集的中国大陆地表信息等巨大数据,每月产生4个TB数据。用于中国天文观测站LAMOST每年观测到的数据达到3.65TB,美国NASA每年获得125多个中心TB英国的数据Sanger2002年中心已收集2002年TB数据每年增长4倍。
  • 移动通信 我们每天使用的手机产生了巨大的数据,中国移动每年有300多个记录TB。
  • 传感数据 传感器持续检测环境信息并不断返回结果,产生了巨大的数据。以波音787为例,每次飞行都可以来回生成TB美国每月收集360万次飞行记录;监控所有飞机中的2.5万台发动机,每台发动机每天产生588台GB的数据。风力发电机配备测量风速、螺距、油温等传感器,每隔几毫秒测量一次,用于检测叶片、变速箱、变频器等的磨损程度。500个风扇的风场每年产生2个PB的数据。
  • 医疗数据 美国著名的医疗保健公司InSiteOne平均每年获得2.1PB英国每年生产300个放射影像数据TB美国乳腺癌数据达到2.6PB。哈尔滨医科大学第一附属医院每年通过各种医疗仪器收集30多个数据TB。
  • 商务数据 每次你在生活中刷卡,你在超市或网络上购买的每一件商品都会产生相应的数据。淘宝网站每天有数千万笔交易,每天有50多个数据TB。沃尔玛为了有效利用商业大数据,建立了包括在内的沃尔玛PB级数据仓库,Bestbuy建立了包含TB数据仓库级数据。补充知识:相信读者已经熟悉数据的概念,大数据的重点是大。我们来看看大的一些定义。

计算机的发展历史一直与大的定义密切相关。例如,硬盘的存储量经历了从KB发展到MB,再发展到TB过程。英语对字节的计数方法如下:

1Byte=8bit 1KB=1024Byte 1MB=1024KB=1048576Byte 1GB=1024MB=1048576KB 1TB=1024GB=1048576MB 1PB=1024TB=1048576GB  1EB=1024PB=1048576TB 1ZB=1024EB=1048576PB 1YB=1024ZB=1048576EB 1BB=1024YB=1048576ZB 1NB=1024BB=1048576YB 1DB=1024NB=1048576BB 

具体值如下:

千1000 万104 亿108 兆1012 京1016 垓1020 秭1024 穰1028 沟1032 涧1036 正1040 载1044 

1.1.3 大数据的特点

通常用3V或者4V本节用4来描述大数据的特征V描述大数据的特征。(Volume,大量存储和计算资源的消耗)大数据的大体现在数据的存储和计算需要大量的资源:美国宇航局收集和处理的气候观察和模拟数据达到32PB;谷歌索引的网页总数超过1万亿;FICO信用卡欺诈检测系统保护世界活跃信用卡账户超过18亿。(Velocity,快速增长,急需实时处理)大数据的另一个特点是速度快:大型强子对撞机实验设备包含15亿个传感器,平均每秒收集4亿多个实验数据;每秒向谷歌提交3万多次用户查询,新浪用户撰写3万条微博。闭环控制过程中的感知、传输、决策和控制计算对实时数据处理有很高的要求。通过传统数据库查询获得的当前结果可能毫无价值,只有最新数据才有价值。(Variety,来源广泛,形式多样)在大数据的背景下,数据在来源和形式上的多样性越来越突出:除了大量非结构化文本数据外,还有位置、图片、音频、视频等信息。除信息形式的多元化,信息的来源也表现出多样性:从网络日志、物联网、移动设备、传感器到基因图谱、医疗影像、天体运行轨迹、交通物流数据等。大数据的多样性已经超过了数据管理中的异构数据库,它不仅是不同的模式或模型,甚至数据本身的存在形式也完全不同,如文本、多媒体数据、仪器收集完全数字数据和用户行为数据,这些数据有多种存在形式,导致处理技术的差异,因此需要新的处理技术。(Value,总价值大,知识密度低。大数据以其高价值吸引了广泛的关注。据全球知名咨询公司麦肯锡报道,如果能有效利用大数据提高效率和质量,预计美国医疗行业每年通过数据获得的潜在价值将超过3000亿美元,从而降低美国医疗卫生支出的8%。虽然大数据价值高,但知识密度很低。谷歌首席经济学家Hal Varian指出数据广泛可用,缺乏从中提取知识的能力;IBM副总裁兼CTO Dietrich表示可用Twitter数据得到了用户对某个产品的评价,但通常只有几百万条记录中的一小部分真正讨论了这个产品。只有高度分析的大数据才能产生新的价值,需要设计能够适应上述特征的大数据处理算法来处理数据。

1.1.4 应用大数据

大数据在许多方面得到了广泛的应用,甚至达到了无处不在的讨论几个典型的大数据应用。2013年2月19日,微软研究院David Rothschil通过分析入围影片的相关数据,博士领导的大数据分析团队预测了2013年奥斯卡奖的最终归属,并成功获得了除最佳导演奖(中国导演李安获得)外的13个奖项。《纽约时报》FiveThirtyEight博客作者和统计学家Nate Silver预测:奥巴马有80%以上的机会赢得周二的大选(后来升至90%).9%);David Rothschild2012年,领导的分析团队采用了一般的数据驱动模型,对美国50个州和哥伦比亚特区51个选区中50个地区的选举结果进行了预测,准确率高于98%。日本有一个网站,你只需要用自己的网站打开这个网站Twitter账户登录可在短时间内通过数万条Twitter找出可能感冒的人,并对过去的感冒情况和今日的感冒情况进行分析(以及统计目前发烧以及嗓子痛的患者数量)。此外,该程序还将结合温度和湿度的变化来预测未来感冒的流行,并开发一个易感冒日历。通过这项服务,人们可以知道周围有多少人有感冒症状,并提前预防。商业信息推荐与我们的日常生活密切相关。当用户在淘宝、京东、卓越等电子商务网站上购物时,该网站将从大数据推荐相关产品。商家收集了大量的用户行为信息,包括购买、浏览、评估等。根据这些行为信息,他们可以预测步可能会采取什么行为,然后根据预测结果向用户推荐他最需要的产品,从而提高用户的购买效率。在推荐技术的帮助下,大数据可以为电子商务带来价值。沃尔玛建立了营销情况的有效分析PB一级数据仓库将网上购物率提高了10%到15%。特易购连超市(Tesco PLC)在数据仓库中收集了700多万个冰箱的数据。通过对这些数据的分析,可以全面监控冰箱的状态,并根据监控和预测的结果积极维护这些冰箱,从而降低能耗。还有一些案例,比如牛排店,通过分析Twitter大数据知道谁可能是常客。根据客户之前的订单,推测他们的航班,然后派一名燕尾服侍者为客户提供晚餐,吸引越来越多的熟客。今天的科学研究已经超越了牛顿时代。从历史上看,第一谷积累了大量的天文数据。开普勒通过数据分析获得了天体的三大运动定律。当时,计算是手动进行的,需要手动分析。如果当年有大数据处理方法,开普勒的三大运动定律可能会更早出台。如今,大量的科学仪器产生了大量的数据,这不再是人们用纸和笔来分析的,而是需要强大的数据处理能力。今天,由大数据的支持,科学研究由假设驱动转向基于探索的科学方法,过去设问“我应该设计什么样的实验来验证这个假设?”,现在设问“从这些数据中我能够看到什么?”和“如果把其他领域的数据融合进来,能够发现什么?”,数据密集型科学发现被称为“科学研究的第四范式”。以美国能源部为例,其提出了基于大数据科学研究的支持计划,包括生物和环境的研究计划、大气辐射测量气候的研究计划以及系统生物学的知识库对微生物和植物环境这些功能群落的识别。

第一范式:几千年前,也就是亚里士多德的时代,科学研究是基于经验的,用于描述自然现象。

第二范式:数百年前,也就是牛顿的时代,科学研究是基于理论研究的,着眼于建立数学模型并进行推广。第三范式:几十年前,开始了基于计算的科学研究,通过强大的能力,得以模拟复杂的自然现象。第四范式:也叫作eScience,基于数据探索的科学研究,利用仪器获取数据或者利用模拟器生成数据,再利用软件进行处理,将知识或信息存储在计算机中,科学家利用数据管理技术和统计方法进行科学发现。

标签: tesco顶驱传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台