数据采集复习题-锐单电子商城

考前回顾记忆点：

爬虫python代码(urllib,bs4库)
正则表达式基础
书p三个计算129标准化变换数据。
传感器节点结构
如何利用传感器节点构建数据采集系统(第二章操作) 6.常用的数据采集命令：hadoop命令行

第一章作业

** 1.数据采集系统的基本功能是什么？ 1)收集传感器输出的模拟信号，调整、采样、量化、编码、传输等步骤，转换为计算机识别的数字信号，然后送到计算机进行计算和处理。 2)存储、显示或打印计算数据以监控物理量。

2.简要介绍数据采集系统的基本结构形式，并比较其特点。多模拟输入通道分为集中采集和分布式采集。计算机数据采集系统通过模拟多路开关，将多个传感器集中在一起，分时采集。系统结构简单，工作速度低。集散数据采集系统由多个数据采集站、上位机、通信接口和线路组成，即数据分布在不同区域。系统适应性强。数据采集站并行工作，可实时响应。 3.采样周期与哪些因素有关？如何选择采样周期？采样周期与存储空间和数据处理精度有关。 1)存储空间足够大，采用常规采样技术:fs>=2xfmax 2)存储空间不足，采用间歇采样技术。 3)信号频率随时间变化，采用变频采样技术。

4.为什么要在数据采集系统中使用测量放大器？如何选择？传感器的模拟信号通常是弱低电平信号。程控放大器放大微弱输入信号，以充分利用A/D根据转换器的满量程分辨率。 1)共模抑制比 2）温漂 3)非线性度等选择放大器 5.在设计数据采集系统时，模拟多路转换器的主要因素是什么？芯片电源、泄漏电流、导电阻、开关速度、芯片电源电压范围。

7.模拟多路转换器在数据采集系统中的作用是什么？选择型号和配置电路的原则是什么？轮流切换模拟量和模拟量A/D分时转换转换器之间的通道。选择合适的1)A/D转换位数2)转换速率3)环境条件4 8.A/D转换器的主要技术指标 **

第二章作业

1．物联网的系统结构物联网通常有三个层次：感知层、网络层和应用层。 a) 物联网的感知层。功能：完成信息的收集和转换。它由传感器(或控制器)和短距离传输网络组成。 b) 物联网网络层功能：主要完成信息传输和处理。组成：两部分：访问单元和访问网络。访问单元是连接感知层的网桥。它收集从感知层获得的数据，并将数据发送到访问网络。访问网络是现有的通信网络。 c) 物联网功能：主要完成数据的管理和处理，并将这些数据与各行业的应用相结合。组成:包括物联网中间件和物联网应用两部分。

2．简要介绍了物联网与传感器网络的联系和区别。联系：无线传感器网络是物联网的重要组成部分，主要负责监测各种环境参数. 区别：（1）物联网网络拓扑更稳定。（2）物联网中实体的网络组织可以是有线或无线的。（3）物联网具有较强的数据处理能力和智能处理能力。 3.物联网的关键技术是什么？感知技术 1）传感器技术2) 无线传感器网络技术 3）射频识别（RFID）技术 (4)二维码技术网络层技术 1）Internet 2）通信网应用层技术 1）云计算 2）人工智能 3）数据挖掘 4)物联网中间件

4.与传统的数据采集系统相比，物联网数据采集系统的优缺点是什么？优点： 1)传感器网络覆盖感知对象区域。 2)多传感器协作完成广泛的感知任务。 4)用多跳路由算法向用户报告感知结果。缺点：传感器节点电源能量有限，通信能力有限，计算和存储能力有限。

5.简要介绍无线传感器节点的系统结构。（重点）

无线传感器节点由sink -汇聚点，sensor node -由传感器节点组成。 1)传感器节点sensor node：收集、处理、控制和通信。 2）Sink节点：1.连接传感器网络Internet等待外部网络，实现两个协议栈之间的通信协议转换。发布管理节点的监控任务3.转发收集到的数据。 6.如何利用传感器节点构建数据采集系统(重点) 大量静态或移动大量的静态或移动传感器，形成无线网络。通过这些传感器节点，收集、处理和传输网络覆盖区域的监控信息，并向用户报告。

第三章课后作业

** 1．Android框架的组成和作用（1）Linux核心层：提供核心系统服务，隐藏硬件物理细节。 (2)系统运行库层:包括一个个C/C 仓库集合，供应Android使用系统各部件。 (3)应用框架层:提供开放的开发平台，简化组件软件的重用。（4）应用层：用Java语言编写的操作程序在虚拟机上。 2．Android开发四个组件的概念和作用（1）Activity：一个Activity它通常是一个单独的屏幕，可以显示一些控件，也可以监控和处理用户的事件。（2）BroadcastReceive：该应用程序可用于过滤外部事件，只接收感兴趣的外部事件。（3）Service：它是一个没有用户界面的长生命周期程序，可以用来开发监控程序。（4）Content Provider向其他应用程序提供应用程序的指定数据集。 3．Android编程的基本概念 4.常用Android传感器种类和功能。 1.动作传感器传感器用于监控设备动作：加速传感器和重力传感器。 2.位置传感器 Android该平台为确定设备位置提供了两个传感器，即磁场传感器和方向传感器。 3.环境传感器用于检测不同的外部环境。温度、湿度、光传感器。

第四章课后作业

** Hadoop框架

MapReduce执行流程

MapReduce 首先存储DFS大规模数据集分为独立的split这些片段被多个片段划分Map任务并行处理，结果继续作为Reduce最后输入任务Reduce输出任务的最终结果并写入DFS。

1.简述Hadoop定义和特点定义：Hadoop开源分布式大数据计算平台为用户提供透明的系统底部细节。特点：可靠性高、效率高、可扩展性高、容错性高、成本低Linux支持多种编程语言的平台。 2．简述Hadoop的典型应用 (1)日志分析。 (2)推荐系统。 (3)数据仓库。 (4)数据挖掘（5）数据实时查询 3.简述HDFS全称和定义分布式文件系统DFS：允许文件通过网络在多个主机上共享文件系统允许多台机器上的多个用户共享文件和存储空间。 HDFS: Hadoop Distributed File System(Hadoop分布式文件系统) 定义：HDFS指设计适合运行的通用硬件(commodity hardware)分布式文件系统（Distributed File System）。 4.简述YARN的作用 YARN 解决了资源管理和任务调度的框架Hadoop1的MapReduce单点故障，JobTracker任务过重等问题。主要包括三个模块：ResourceManager（RM）、 NodeManager（NM）、ApplicationMaster（AM）ResourceManager：资源管理； ApplicationMaster：作业调度监控； NodeManager：执行原TaskTracker的任务。

5.简述Hive功能和特点作用：Hive是一个SQL它将分析引擎SQL语句转译成MapReduce 作业并在Hadoop上执行。特点： (1)支持索引，加快数据查询。 ? (2)支持纯文本文件等不同类型的存储，HBase 中的文件。 ? (3)在关系数据库中保存元数据，减少语义检查时间。 ? (4)可直接存储Hadoop 文件系统中的数据。 ? (5)内置大量用户函数UDF 操作时间、字符串等数据挖掘工具，支持用户扩展UDF 函数完成内置函数无法实现的操作。 ? （6）类SQL 查询方法，将SQL 查询转换为MapReduce 的job 在Hadoop 集群执行。 ? （7）编码跟Hadoop同样使用UTF-8字符集 6．简述Spark和谐的作用和特点Hadoop进行比较功能：快速大规模查询、分析和转换数据特点：运行速度快，易用性好，通用性强，优化为内存运行。比较：Spark的MapReduce的Job中间输出和结果可以保存在内存中，因此不再需要读写HDFS，因此Spark更好地适用于数据挖掘和机器学习需要迭代的map reduce的算法。

第五章作业

** 1.如何获取大数据？通过Chukwa,Flume,Scrible,Kafka从企业生成的大量数据中采集等大数据采集工具。 2．大数据采集工具有哪些？ Chukwa: Chukwa是一个用于监控大型分布式系统的开源数据收集系统。Apache Chukwa构建于Hadoop分布式文件系统（HDFS）和Map / Reduce并在框架上继承Hadoop可扩展性和健壮性。 Scribe：Scribe是Facebook开源的日志收集系统，能够从各种日志源上收集日志，存储到一个中央存储系统(可以是NS，分布式文件系统等)上，以便于进行集中统计分析处理。 Flume：Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。 Kafka：由Apache软件基金会开发的一个开源流处理平台，由 Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。 Kafka被设计成能够高效地处理大量实时数据，其特点是快速的、可扩展的、分布式的，分区的和可复制的。 3.简述什么是Apache Flume数据采集。（书P38重点复习） Apache Flume 是一个可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具。flume具有高可用，分布式的配置工具，其设计的原理是基于将如日志数据的数据流从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。 4.简述Sqoop的主要功能。 Apache Sqoop是一个开源的数据库导入/导出工具，允许用户将关系型数据库中的数据导入Hadoop的HDFS文件系统，或将数据从Hadoop导入到关系型数据库。 5.Kafka抽象具有哪种模式的特征消费组？（书P43）队列消息服务和广播服务。如果Consumers有同一个组名，那么Kafka就相当于一个队列消息服务，而各个Consumer均衡地消费相应Partition中的数据。如果Consumers有不同的组名，那么Kafka就相当于一个广播服务，它会把Topic中的所有消息广播到每个Consumer。 Consumer Group是Kafka实现单播和广播两种消息模型的手段。同一个topic的数据，会广播给不同的Consumer group；同一个Consumer group中的worker，只有一个worker能拿到这个数据。 6.Topic可以有多个分区，这些分区有什么作用？（1）作为并行处理单元，使Kafka高效处理大数据。（1）有利于水平扩展，避免单台机器在磁盘空间和性能上的限制（2）同时可以通过复制来增加数据冗余性，提高容灾能力。

第六章作业

1．什么是数据迁移？（重点）数据迁移，就是将这些旧系统中宝贵的历史数据进行清洗、转换，并装载到新系统中的过程。它是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备(即在线存储设备)的下一级设备，然后将磁盘中常用的数据按指定的策略自动迁移到磁带库（简称带库）等二级大容量存储设备上。 (在线存储是指存储设备和所存储的数据时刻保持 “在线”状态，可供用户随意读取，满足计算平台对数据访问的速度要求。就像PC机中常用的磁盘存储模式一样。一般在线存储设备为磁盘和磁盘阵列等存储设备，价格相对昂贵，但性能较好。

离线存储是对在线存储数据的备份，以防范可能发生的数据灾难。离线存储的数据不常被调用，一般也远离系统应用，所以人们用“离线”来生动地描述这种存储方式。 ) 2．基于主机的迁移方式包括哪几种方式？（1）直接拷贝方法:利用操作系统的一些命令可以实现磁盘数据的直接复制，适合于脱机迁移的环境。（2）逻辑卷数据镜像技术:对于采用逻辑卷管理器的操作系统，可使用逻辑卷管理器完成数据迁移，适用于主机存储的非经常性迁移。 3．基于同构存储的数据迁移和基于异构存储的数据迁移的区别有哪些？（1）同构存储的数据迁移是通过存储的同步复制迁移技术，实现磁盘或卷LUN的复制（2）异构存储的数据迁移是通过存储的虚拟化管理技术，实现对不同品牌存储的统一管理及内部复制，从而实现数据迁移.

4．异构数据库的数据迁移通常存在哪些问题？（1）字段类型变化（2）序列不一致（3）程序不兼容主键（4）索引丢失 5．服务器虚拟化迁移有哪些优点？服务器虚拟化可以提高设备资源的利用率，可实现服务器的资源整合和充分运用，也符合目前云计算的需求 6．ETL构建数据仓库包含哪些关键流程？（重点）（1）数据抽取：从不同的数据源(不同物理环境和背景以及多样化的数据)中通过采用不同的方法抽取数据的一个过程。（2）数据转换：从数据源中抽取获得的数据格式与目标数据格式可能存在不一致的情况,所以需要对抽取后的数据进行数据转换以及加工的处理,包括数据的合并、汇总、过滤和转换,重新对数据进行格式化等过程。（3）数据清洗：指数据在加载到数据仓库之前,可能会存在- -些问题数据,即"脏数据" ,如不完整数据、错误数据和重复数据等须进行数据清洗,这是一个不断反复的过程。（4）数据加载：将经过数据转换和数据清洗后的数据依照实际数据模式定义的表结构装载到目标库中。通常包含两种方式装载,一种是通过SOL语句插入、删除和更新操作,另种是采用批量装载方法

7．简述Sqoop的数据导入和数据导出的过程。（重点）导入流程：（1）读取要导入数据的表结构（2）读取参数，设置好job （3）调用mapreduce执行任务对数据进行切分写入范围，以便读取读取范围参数（第二步中设置的参数）创建RecordReader并从数据库中读取数据创建map 执行map 导出流程：导入过程的逆向过程 8．使用Kettle实现数据迁移。具体操作在如下网站学习： https://www.cnblogs.com/wlming/p/8080480.html **

第七章作业

** 1.什么是网络爬虫？网络爬虫的常见应用有哪些？网络爬虫是一种自动采集网络数据的程序，一般分为数据采集、处理、存储三个部分，被广泛用于互联网搜索引擎、资讯采集、舆情监测等领域。

2.常用的网络爬虫抓取策略有哪些？（1）深度优先策略：按照深度由低到高的顺序，依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。（2）广度优先策略：按照广度优先的搜索思想，逐层抓取URL池中的每一个URL的内容，并将每一层的扇出URL纳入URL池中，按照广度优先的策略继续遍历。（3）局部PageRank(链接的访问量排名)策略：按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。（4）OPIC策略：初始时给所有页面-一个相同的初始现金(cash)。当下载了某个页面之后,将P的现金分摊给所有从P中分析出的链接并将P的现金清空。对于待抓取AL队列中的所有页面都须按照现金数进行排序。（5）大站优先策略：指对待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面量大的网站，优先下载（6）反向链接数策略：指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人推荐的程度。（7）最佳优先搜索策略：通过URL描述文本与目标网页的相似度,或者与主题的相关性,根据所设定的阈值选出有效的URL进行抓取。

3.常用的网络更新策略有哪些？（1）历史参考策略：最直观，利用泊松过程来对网页的变化进行建模，根据每个网页过去的变动情况，利用模型预测将来何时内容会再次发生变化，以此来指导爬虫的抓取过程。（2）用户体验策略：保存网页的多个历史版本，并根据过去每次内容变化对搜索质量的影响，得出一个平均值，以此作为判断爬虫重新抓取该网页时机的参考依据，对于影响越厉害的网页，则越优先调度重新抓取。（3）聚类抽样策略：可以根据属性将网页归类，同一类别内的网页具有相同的更新频率。为了计算某个类别的更新周期，只需对类别内网页进行采样，以这些采样网页的更新周期作为该类别内所有网页的更新周期。

4.常用的网页分析算法有哪些？网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。 (1) 基于用户行为的分析算法：根据用户对网页的访问频率、访问时长、点击率等对网页数据进行分析 (2) 基于网络拓扑的分析算法：根据网页的外链、网页的层次、网页的等级等对网页数据进行分析，计算出网页的权重，对网页进行排名 (3) 基于网页内容的分析算法：根据网页的外观、网页的文本等内容特征对网页数据进行分析 5.简述通用爬虫工作过程？

(1)首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL (2)将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取 (3)将URL通过DNS解析 (4)把链接地址转换为网站服务器对应的IP地址 (5)网页下载器通过网站服务器对网页进行下载 (6)下载的网页为网页文档形式(html) (7)对网页文档中的URL进行抽取，过滤掉已经抓取的URL后将新的URL放入URL队列中。 (8)对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。

其中，下载的网页文档一部分存储到页面库中，等待建立索引等后续处理，另一方面将网页中的URL存入已抓取URL库中，提供给步骤7进行过滤。

6.什么是聚焦网络爬虫？聚焦爬虫的工作流程是根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 7.简述Python的Urllib库的主要模块和功能。 (1)urllib.requst模块：发送request和获取request的结果。 (2)urllib.error模块：捕获由urllib.request产生的异常并返回错误原因 (3)urllib.parse模块：定义了一个标准接口，把URL字符串拆分成组件，并能把组件合成URL或者将相对URL展换为给定的基URL的绝对URL (4)urllib.robotparser模块：一般来说,网站都会定义robots.txt文件，该文件主要用来规定网络爬虫爬取该网站时存在的限制。

8.简述BeautifulSoup库的作用。 BeautifulSoup是一个可以从HTML 或XML文件中提取数据的Python库。 BcautifulSoup 提供一些简单的Python式的函数用来处理导航、搜索、修改分析等功能。它同时也是一个工具箱,通过解析文档为用户提供需要抓取的数据。统一将输出文档转换为utf- 8编码。

第八章作业

** 1．简述HTML数据采集的主要过程（1）通过urllib中的urlopen函数向指定url发起请求，得到返回的html。（2）通过bs4中的BeautifulSoup函数解析html,得到bs对象，基于bs对象进行html解析获取html中需要的数据。

2．简述常见的爬虫的分类方法？一：按功能分类（1）批量型爬虫，有明确抓取范围和目标，达到目标后立即停止抓取。（2）增量型爬虫，根据用户配置持续抓取，并且定期更新抓取到的网页和及时反映更新的变化。（3）垂直型爬虫：根据用户配置持续抓取属于指定主题的页面。二：按系统结构分类（1）通用网络爬虫：又称全网爬虫。（2）聚焦网络爬虫：按照预定义的主题有选择地爬取网页，相对通用网络爬虫增加了目标的定义和过滤机制。（3）深层网络爬虫（4）分布式网络爬虫

3．简述BeautifulSoup库中的四个主要对象和功能（1）BeautifulSoup 对象：一个html文档的全部内容。（2）标签Tag 对象： BeautifulSoup 对象通过find 和find_all，或者直接调用子标签获取的一列对象或单个对象，（3）NavigableString对象：标签中的文字。（4）comment对象：用来查找文档注释。 4．简述BeautifulSoup库中常用的解析器

5．掌握网页爬取编程步骤和基础正则表达式

6．掌握Scrapy框架编程引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 爬虫(Spiders) 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

7．简述Xpath和CSS选择器的主要功能。 8．简述使用CSV文件存储数据。 9．掌握Mysql的基本命令

十一章：数据预处理技术

列举出常用于数据散布特征的统计度量，并讨论如何在大数据预处理分析中有效地计算。散布特征：（1）极差：最大值减最小值。（2）分位数（3）方差与标准差。
针对不同的数据类型，数据相似性和相异性常用的计算方法有哪些？（1）标称属性：设m是匹配的数目（对象i和对象j取值相同状态的属性数），p数对象的属性总数。则对象i和j的相异性d(i,j)=(p-m)/p,相似性 sim(I,j)=1-d(I,j) （2）二元属性：（3）数值属性：欧几里得距离，曼哈顿距离和闵可夫斯基距离。（4）混合类型属性相似性和相异性度量（5）文档相似性和相异性度量:词频向量。
数据清洗的主要任务？常用的数据清洗技术？主要任务：标准化数据格式，清楚异常和重复数据。常用技术：缺失值处理，光滑噪声数据处理，检测偏差与纠正偏差。
数据规约的目的？常用的数据规约技术？得到数据集的归约表示，使得数据集变小的同时保持原数据的完整性。常用的数据规约技术：维归约，数量归约和数据压缩。 10．假设所分析的数据包括年收入income(单位：万元)，它在数据元组中的值（以递增序）为3,3,6,6,7,7,8,9,9,10,10,12,12,12,15,15,15,18,18,18,20,20,20,20,24,24,30,30.计算数据的均值，中位数以及众数。均值： 11.利用习题10中的数据，回答如下问题：（1）将数据划分到大小为4的等频箱中，给出每个箱中的数据。箱1：3,3,6,6 箱2：7,7,8,9 箱3：9,10,10,12 箱4：12,12,15,15 箱5：15,18,18,18 箱6：20,20,20,20, 箱 7：24,24,30,30. （2）分别给出利用箱均值光滑数据结果和用箱边界光滑数据的结果。箱均值光滑数据结果：用每个箱中的均值代替原值。箱边界光滑结果：将给定箱最大最小值视为箱边界，将箱中值替换为最近的边界值。 12.利用习题10中的数据，回答如下问题：（1）使用min-max规范化变换，将年收入值为22变换到[0.0,1.0]区间。 Min=3,max=30.根据p129（6-24） Xi’=(22-3)/(30-3)*(1.0-0.0) + 0.0= (2)使用z-score规范化变换年收入值为22的数据，其中数据的标准差为7.46。数据的均值为14. 根据p129 （6-25） Xi’=(22-14) /7.46=

（3）使用小数定标规范化变化年收入值为22的数据。 Xi取值为3-30 其最大绝对值为30 则由（6-28）得j=2.（使得max(|xi’|<1)的最小整数）则22规范化为22/10的二次方=0.22

资讯详情

数据采集复习题

第一章作业

第二章作业

第三章课后作业

第四章课后作业

第五章作业

第七章作业

第八章作业

十一章：数据预处理技术

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

数据采集 复习题

最近热搜

历史搜索 清除历史记录

数据采集复习题

历史搜索清除历史记录