引言 引言课后测试 1、 问题:机器学习的合理定义是什么? 选项: A:机器学习从标记的数据中学习 B:机器学习可以使计算机在没有明确编程的情况下学习 C:机器学习是计算机编程的科学 D:机器学习是允许机器人智能行动的领域 答案: 机器学习可以使计算机在没有明确编程的情况下学习
2、 问题:计算机程序从经验E中学习任务T,并用P来衡量性能。TP的性能随着经验E的增加而提高。假设我们在学习算法中输入了大量的历史天气数据,让它学会预测天气。P的合理选择是什么? 选项: A:计算大量历史气象数据的过程 B:正确预测未来日期天气的概率 C:天气预报任务 D:以上都不 答案: 正确预测未来日期天气的概率
3、 问题:回归问题和分类问题的区别是什么? 选项: A:回归问题有标签,没有分类问题 B:回归问题输出值离散,分类问题输出值连续 C:回归问题输出值是连续的,分类问题输出值是离散的 D:输入属性值对回归问题和分类问题的要求不同 答案: 【回归问题输出值连续,分类问题输出值离散】
4、 问题:以下关于特征选择的说法正确吗? 选项: A:选择的特征越多越好 B:选择的特征越少越好 C:选择的特征应尽可能反映不同事物之间的差异 D:上述说法均不正确 答案: 选择的特征应尽可能反映不同事物之间的差异
5、 问题:如果采用一对剩余的方法,一个包含n类的多分类问题需要拆分多少次? 选项: A:1 B:n-1 C:n D:n 1 答案: 【n-1】
6、 传统上,机器学习方法可分为( )类。 选项: A:3 B:4 C:7 D:2 答案: 【3】
7、 问题:哪些机器学习模型可以根据其行为获得的奖励和反馈做出一系列决策? 选项: A:监督学习 B:无监督学习 C:强化学习 D:以上全部 答案: 【强化学习】
8、 问题:机器学习术语是由( )定义的? 选项: A:James Gosling B:Arthur Samuel C:Guido van Rossum D:以上都不是 答案: 【Arthur Samuel 】
9、 问题:哪种开发语言最适合机器学习?( ) 选项: A:C B:Java C:Python D:HTML 答案: 【Python】
10、 问题: ( )与神经网络一起工作是机器学习的一部分。 选项: A:人工智能 B:深度学习 C:A和B D:以上都不是 答案: 深度学习
11、 问题: ( )机器学习算法可用于标记数据。 选项: A:回归算法 B:聚类算法 C:关联规则算法 D:以上都不是 答案: 【回归算法】
12、 问题:谷歌新闻每天收集大量新闻并使用它( )该方法将这些新闻分组成几类相关新闻。因此,在搜索过程中,同一组新闻事件往往属于同一主题,因此它们被显示在一起。 选项: A:回归 B:分类 C:聚类 D:关联规则 答案: 【聚类】
13、 问题:以下哪些学习问题不属于监督学习?( ) 选项: A:聚类 B:降维 C:分类 D:回归 答案: 【聚类; 降维】
14、 问题:以下哪些学习问题不属于监督学习?( ) 选项: A:回归 B:分类 C:聚类 D:关联规则 答案: 【聚类; 关联规则】
15、 问题:机器学习的方法是由( )等几个元素构成。 选项: A:模型 B:损失函数 C:优化算法 D:模型评价指标 答案: 【模型; 损失函数; 优化算法; 模型评估指标
16、 问题:对于非概率模型,线性模型和非线性模型可以根据判断函数的线性与否进行划分。以下哪些模型属于线性模型? 选项: A:K-means B:k近邻 C:感知机 D:AdaBoost 答案: 【K-means; k近邻; 感知机】
17、 问题:简单贝叶斯属于概率模型。 选项: A:正确 B:错误 答案: 【正确】
18、 问题:良性或恶性是根据肿瘤的体积和患者的年龄来判断的。 选项: A:正确 B:错误 答案: 【错误】
19、 问题:在大多数机器学习项目中,数据收集、数据清理和特征项目的大部分时间。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:已知朋友的信息,比如经常发email联系人,或者你微博的朋友,微信的朋友圈,我们可以用聚类的方法自动给朋友分组,让每组的人都熟悉对方。 选项: A:正确 B:错误 答案: 【正确】 逻辑回归 课后考试的逻辑回归 1、 问题:监狱人脸识别准入系统用于识别待进入人员的身份。该系统包括四种不同的人员:狱警、小偷、送餐员等。以下哪种学习方法最适合此应用程序: 选项: A:二分类问题 B:多分类问题 C:回归问题 D:聚类问题 答案: 多分类问题
2、 问题:以下关于分类的说法是错误的? 选项: A:分类属于监督学习 B:分类问题的输入属性必须离散 C:多分类问题可分为多个二分类问题 D:在一定条件下,回归问题可以转化为多分类问题 答案: 分类问题输入属性必须离散
3、 问题:逻辑回归和线性回归的以下描述是错误的() 选项: A:逻辑回归用于处理分类问题,线性回归用于处理回归问题 B:线性回归要求输入输出值呈线性关系,逻辑回归不需要 C:逻辑回归一般要求变量服从正态分布,线性回归一般不要求
D:线性回归计算方法一般为最小二乘法,逻辑回归参数计算方法为显而易见的估计方法。 答案: 【逻辑回归一般要求变量服从正态分布,线性回归一般不要求】 4、 问题:以下关于sigmoid函数的优点是错误的? 选项: A:函数处处连续,便于求导 B:可以用于处理二分类问题 C:在深层神经网络反馈传输中,梯度不易消失 D:将数据值压缩到[0,1]之间,便于后续处理 答案: 【梯度消失不易发生在深层神经网络反馈传输中】
5、 问题:逻辑回归的损失函数是哪个? 选项: A:MSE B:交叉熵(Cross-Entropy)损失函数 C:MAE D:RMSE 答案: 【交叉熵(Cross-Entropy)损失函数】
6、 问题:以下哪一项不是Sigmoid的特点? 选项: A:当σ(z)大于等于0.5时,预测 y=1 B:当σ(z)小于0.5时,预测 y=0 C:当σ(z)小于0.5时,预测 y=-1 D:σ(z)范围为(0,1) 答案: 【当σ(z)小于0.5时,预测 y=-1】
7、 问题:以下哪一个不是逻辑回归的优势? 选项: A:很容易处理非线性数据 B:模型形式简单 C:资源占用少 D:可解释性好 答案: 易于处理非线性数据
8、 问题:假设有三种数据可以使用OVR该方法需要分类几次才能完成? 选项: A:1 B:2 C:3 D:4 答案: 【2】
9、 问题:以下哪些不是二分类问题? 选项: A:良性或恶性取决于肿瘤的体积和患者的年龄? B:或者根据用户的年龄、职业和存款数量来判断信用卡是否违约? C:身高1.85m,体重100kg男人穿什么尺寸的t恤? D:根据一个人的身高和体重来判断他的性别。 答案: 【身高1.85m,体重100kg男人穿什么尺寸的t恤?
10、 问题:逻辑回归通常采用哪种正规方式? 选项: A:Elastic Net B:L1正则化 C:L2正则化 D:Dropout正则化 答案: 【L2正则化】
11、 问题:假设使用逻辑回归进行多类别分类,使用 OVR 分类法。以下说法正确吗? 选项: A:对于 n 需要训练的类别 n 个模型 B:对于 n 需要训练的类别 n-1 个模型 C:对于 n 类别,只需要训练 1 个模型 D:以上说法都不对 答案: 【对于 n 需要训练的类别 n 个模型】
12、 问题:您正在训练一个分类逻辑回归模型。以下哪个陈述正确?选择所有正确的项目 选项: A:将正则化引入模型总能在训练集中获得相同或更好的性能 B:在模型中添加许多新特性有助于防止训练集过度拟合 C:将正则化引入模型总能获得相同或更好的训练样本 D:在训练集中,向模型添加新的特征总是会获得相同或更好的性能 答案: 在训练集中,向模型添加新特征总能获得相同或更好的性能
13、 问题:以下哪个陈述是正确的?选择所有正确的项目( ) 选项: A:在构建学习算法的第一个版本之前,花很多时间收集大量数据是个好主意。 B:逻辑回归使用Sigmoid激活函数 C:使用一个非常大的训练集使模型不太可能过拟合训练数据。 D:如果您的模型拟合训练集,那么获取更多数据可能会有帮助。 答案: 【逻辑回归使用了Sigmoid激活函数; 使用一个非常大的训练集使得模型不太可能过拟合训练数据。】
14、 问题:下面哪些是分类算法? 选项: A:根据肿瘤的体积、患者的年龄来判断良性或恶性? B:根据用户的年龄、职业、存款数量来判断信用卡是否会违约? C:身高1.85m,体重100kg的男人穿什么尺码的T恤? D:根据房屋大小、卫生间数量等特征预估房价 答案: 【根据肿瘤的体积、患者的年龄来判断良性或恶性?; 根据用户的年龄、职业、存款数量来判断信用卡是否会违约?; 身高1.85m,体重100kg的男人穿什么尺码的T恤?】
15、 问题:逻辑回归的激活函数是Sigmoid。 选项: A:正确 B:错误 答案: 【正确】
16、 问题:逻辑回归分类的精度不够高,因此在业界很少用到这个算法 选项: A:正确 B:错误 答案: 【错误】
17、 问题:Sigmoid函数的范围是(-1,1) 选项: A:正确 B:错误 答案: 【错误】
18、 问题:逻辑回归的特征一定是离散的。 选项: A:正确 B:错误 答案: 【错误】
19、 问题:逻辑回归算法资源占用小,尤其是内存。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:逻辑回归的损失函数是交叉熵损失 选项: A:正确 B:错误 答案: 【正确】
回归 回归课后测试 1、 问题: 以下哪组变量之间存在线性回归关系? 选项: A:学生的性别与他的成绩 B:儿子的身高与父亲的身高 C:正方形的边长与面积 D: 正三角形的边长与周长 答案: 【 正三角形的边长与周长】
2、 问题:回归问题和分类问题的区别是? 选项: A:回归问题有标签,分类问题没有 B:回归问题输出值是离散的,分类问题输出值是连续的 C:回归问题输出值是连续的,分类问题输出值是离散的 D:回归问题与分类问题在输入属性值上要求不同 答案: 【回归问题输出值是连续的,分类问题输出值是离散的】
3、 问题:以下说法错误的是? 选项: A:残差是预测值与真实值之间的差值 B:损失函数越小,模型训练得一定越好 C:正则项的目的是为了避免模型过拟合 D:最小二乘法不需要选择学习率 答案: 【损失函数越小,模型训练得一定越好】
4、 问题:哪些算法不需要数据归一化? 选项: A:kNN B:k-means C:SVM D: 决策树 答案: 【 决策树】
5、 问题:以下哪些方法不能用于处理欠拟合? 选项: A:增大正则化系数 B:增加新的特征 C:增加模型复杂度 D:对特征进行变换,使用组合特征或高维特征 答案: 【增大正则化系数】
6、 问题:以下哪些方法不能用于处理过拟合? 选项: A:对数据进行清洗 B:增大训练数据的量 C:利用正则化技术 D:增加数据属性的复杂度 答案: 【增加数据属性的复杂度】
7、 问题:下列关于线性回归分析中的残差(Residuals)说法正确的是? 选项: A:残差均值总是为零 B:残差均值总是小于零 C:残差均值总是大于零 D:以上说法都不对 答案: 【残差均值总是为零】
8、 问题:为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合? 选项: A:散点图 B:柱形图 C:直方图 D:以上都不对 答案: 【散点图】
9、 问题:假如你在训练一个线性回归模型,则:1. 如果数据量较少,容易发生过拟合。2. 如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是? 选项: A:1 和 2 都错误 B:1 正确,2 错误 C:1 错误,2 正确 D:1 和 2 都正确 答案: 【1 正确,2 错误】
10、 问题:关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是? 选项: A:Ridge 回归适用于特征选择 B:Lasso 回归适用于特征选择 C:两个都适用于特征选择 D:以上说法都不对 答案: 【Lasso 回归适用于特征选择】
11、 问题:构建一个最简单的线性回归模型需要几个系数(只有一个特征)? 选项: A:1 个 B:2 个 C:3 个 D:4 个 答案: 【2 个】
12、 问题:向量x=[1,2,3,4,-9,0]的L1范数是多少? 选项: A:1 B:19 C:6 D: 答案: 【19】
13、 问题:以下哪些是使用数据规范化(特征缩放)的原因? 选项: A:它通过降低梯度下降的每次迭代的计算成本来加速梯度下降 B:它通过减少迭代次数来获得一个好的解,从而加快了梯度下降的速度 C:它不能防止梯度下降陷入局部最优 D:它防止矩阵 不可逆(奇异/退化) 答案: 【它通过减少迭代次数来获得一个好的解,从而加快了梯度下降的速度; 它不能防止梯度下降陷入局部最优】
14、 问题:线性回归中,我们可以使用最小二乘法来求解系数,下列关于最小二乘法说法正确的是?( ) 选项: A:只适用于线性模型,不适合逻辑回归模型等其他模型 B:不需要选择学习率 C:当特征数量很多的时候,运算速度会很慢 D:不需要迭代训练 答案: 【只适用于线性模型,不适合逻辑回归模型等其他模型; 不需要选择学习率; 当特征数量很多的时候,运算速度会很慢; 不需要迭代训练】
15、 问题:欠拟合的处理主要有哪些方式:() 选项: A:增加模型复杂度 B:减小正则化系数 C:增大正则化系数 D:添加新特征 答案: 【增加模型复杂度; 减小正则化系数; 添加新特征】
16、 问题:假如使用一个较复杂的回归模型来拟合样本数据,使用 Ridge回归,调试正则化参数,来降低模型复杂度,若正则化系数较大时,关于偏差(bias)和方差(variance),下列说法正确的是?( ) 选项: A:偏差减小 B:偏差增大 C:方差减小 D:方差增大 答案: 【偏差增大; 方差减小】
17、 问题:如果两个变量相关,那么它们一定是线性关系。 选项: A:正确 B:错误 答案: 【错误】
18、 问题:随机梯度下降,每次迭代时候,使用一个样本。 选项: A:正确 B:错误 答案: 【正确】
19、 问题:L2正则化往往用于防止过拟合,而L1正则化往往用于特征选择。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:过拟合的处理可以通过减小正则化系数。 选项: A:正确 B:错误 答案: 【错误】
朴素贝叶斯 朴素贝叶斯课后测验 1、 问题:假设会开车的本科生比例是15%,会开车的研究生比例是23%。若在某大学研究生占学生比例是20%,则会开车的学生是研究生的概率是多少? 选项: A:80% B:16.6% C:23% D:15% 答案: 【16.6% 】
2、 问题:下列关于朴素贝叶斯的特点说法错误的是() 选项: A:朴素贝叶斯模型发源于古典数学理论,数学基础坚实 B:朴素贝叶斯模型无需假设特征条件独立 C:朴素贝叶斯处理过程简单,分类速度快 D:朴素贝叶斯对小规模数据表现较好 答案: 【朴素贝叶斯模型无需假设特征条件独立】
3、 问题:以下算法不属于生成模型 ( ) 选项: A:朴素贝叶斯模型 B:混合高斯模型 C:隐马尔科夫模型 D:支持向量机 答案: 【支持向量机】
4、 问题:关于拉普拉斯平滑说法正确的是() 选项: A:避免了出现概率为0的情况 B:加上拉普拉斯平滑有助于提高学习性能 C:会使得最终结果可能大于1 D:以上说法都不对 答案: 【避免了出现概率为0的情况 】
5、 问题:假设X和Y都服从正态分布,那么P(X<5,Y<0)就是一个( ),表示X<5,Y<0两个条件同时成立的概率,即两个事件共同发生的概率。 选项: A:先验概率 B:后验概率 C:联合概率 D:以上说法都不对 答案: 【联合概率 】
6、 问题:以下算法属于判别模型的是( ) 选项: A:朴素贝叶斯模型 B:深度信念网络 C:隐马尔科夫模型 D:线性回归 答案: 【线性回归】
7、 问题:朴素贝叶斯的优点不包括( ) 选项: A:算法逻辑简单,易于实现 B:分类过程中时空开销小 C:对缺失数据不太敏感,算法也比较简单,常用于文本分类 D:朴素贝叶斯模型对输入数据的表达形式很敏感 答案: 【朴素贝叶斯模型对输入数据的表达形式很敏感】
8、 问题:市场上某商品来自两个工厂,它们市场占有率分别为60%和40%,有两人各自买一件,则买到的来自不同工厂之概率为( )。 选项: A:0.5 B:0.24 C:0.48 D:0.3 答案: 【0.48】
9、 问题:以A表示事件"甲种产品畅销,乙种产品滞销",则其对立事件A为( ) 选项: A:甲种产品滞销,乙种产品畅销 B:甲,乙两种产品均畅销 C:甲种产品滞销 D:甲种产品滞销或乙种产品畅销 答案: 【甲种产品滞销或乙种产品畅销】
10、 问题:11. 关于朴素贝叶斯,下列说法错误的是:( ) 选项: A:它是一个分类算法 B:朴素的意义在于它的一个天真的假设:所有特征之间是相互独立的 C:它实际上是将多条件下的条件概率转换成了单一条件下的条件概率,简化了计算 D:朴素贝叶斯不需要使用联合概率 答案: 【朴素贝叶斯不需要使用联合概率】
11、 问题:掷二枚骰子,事件A为出现的点数之和等于3的概率为( ) 选项: A:1/11 B:1/18 C:1/6 D:都不对 答案: 【1/18】
12、 问题:公司里有一个人穿了运动鞋,推测是男还是女?已知公司里男性30人,女性70人,男性穿运动鞋的有25人,穿拖鞋的有5人,女性穿运动鞋的有40人,穿高跟鞋的有30人。则以下哪项计算错误()? 选项: A:p(男|运动鞋)=0.25 B:p(女|运动鞋)=0.4 C:p(运动鞋|男性)=25/30 D:p(运动鞋|女性)=0.4 答案: 【p(运动鞋|女性)=0.4】
13、 问题:根据以往经验和分析得到的概率。在这里,我们用P(Y)来代表在没有训练数据前假设Y拥有的初始概率,因此称其为Y的后验概率,它反映了我们所拥有的关于Y的背景知识。 选项: A:正确 B:错误 答案: 【错误】
14、 问题:朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性相关性较小时,朴素贝叶斯性能良好。而在属性个数比较多或者属性之间相关性较大时,分类效果不好。 选项: A:正确 B:错误 答案: 【正确】
15、 问题:朴素贝叶斯对缺失数据较敏感。 选项: A:正确 B:错误 答案: 【正确】
16、 问题:判别模型所学内容是决策边界。 选项: A:正确 B:错误 答案: 【正确】
17、 问题:逻辑回归是生成模型,朴素贝叶斯是判别模型 选项: A:正确 B:错误 答案: 【错误】
18、 问题:逻辑回归和朴素贝叶斯都有对属性特征独立的要求 选项: A:正确 B:错误 答案: 【错误】
19、 问题:朴素贝叶斯法的基本假设是条件独立性。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:朴素贝叶斯适用于小规模数据集,逻辑回归适用于大规模数据集。 选项: A:正确 B:错误 答案: 【错误】
机器学习实践 机器学习实践课后测验 1、 问题:以下关于训练集、验证集和测试集说法不正确的是( )。 选项: A:测试集是纯粹是用于测试模型泛化能力 B:训练集是用来训练以及评估模型性能 C:验证集用于调整模型参数 D:以上说法都不对 答案: 【训练集是用来训练以及评估模型性能】
2、 问题:当数据分布不平衡时,我们可采取的措施不包括( )。 选项: A:对数据分布较少的类别过采样 B:对数据分布较多的类别欠采样 C:对数据分布较多的类别赋予更大的权重 D:对数据分布较少的类别赋予更大的权重 答案: 【对数据分布较多的类别赋予更大的权重 】
3、 问题:假设有100张照片,其中,猫的照片有60张,狗的照片是40张。识别结果:TP=40,FN=20,FP=10,TN=30,则可以得到:( )。 选项: A:Accuracy=0.8 B:Precision=0.8 C:Recall=0.8 D:以上都不对 答案: 【Precision=0.8】
4、 问题:关于数据规范化,下列说法中错误的是( )。 选项: A:包含标准化和归一化 B:标准化在任何场景下受异常值的影响都很小 C:归一化利用了样本中的最大值和最小值 D:标准化实际上是将数据在样本的标准差上做了等比例的缩放操作 答案: 【标准化在任何场景下受异常值的影响都很小】
5、 问题:下列哪种方法可以用来缓解过拟合的产生:( )。 选项: A:增加更多的特征 B:正则化 C:增加模型的复杂度 D:以上都是 答案: 【正则化】
6、 问题:以下关于ROC和PR曲线说法不正确的是 ( )。 选项: A:ROC曲线兼顾正例与负例,PR曲线完全聚焦于正例 B:如果想测试不同类别分布下分类器性能的影响,ROC曲线更为适合 C:ROC曲线不会随着类别分布的改变而改变 D:类别不平衡问题中,ROC曲线比PR曲线估计效果要差 答案: 【类别不平衡问题中,ROC曲线比PR曲线估计效果要差】
7、 问题:以下关于偏差(Bias)和方差(Variance)说法正确的是 ( )。 选项: A:方差描述的是预测值与真实值之间的差别 B:偏差描述的是预测值的变化范围 C:获取更多的训练数据可解决高方差的问题 D:获取更多的特征能解决高方差的问题 答案: 【获取更多的训练数据可解决高方差的问题】
8、 问题:关于L1正则化和L2正则化说法错误的是 ( )。 选项: A:L1正则化的功能是使权重稀疏 B:L2正则化的功能是防止过拟合 C:L1正则化比L2正则化使用更广泛 D:L1正则化无法有效减低数据存储量 答案: 【L1正则化比L2正则化使用更广泛】
9、 问题:随着训练样本的数量越来越大,则该数据训练的模型将具有:( )。 选项: A:低方差 B:高方差 C:相同方差 D:无法判断 答案: 【低方差】
10、 问题:随着训练样本的数量越来越大,则该数据训练的模型将具有:( )。 选项: A:低偏差 B:高偏差 C:相同偏差 D:无法判断 答案: 【相同偏差】
11、 问题:关于特征选择,下列对Ridge回归和Lasso回归的说法正确的是:( )。 选项: A:Ridge回归适用于特征选择 B:Lasso回归适用于特征选择 C:两个都适用于特征选择 D:以上说法都不对 答案: 【Lasso回归适用于特征选择】
12、 问题:一个正负样本不平衡问题(正样本99%,负样本 1%)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是 99%,则下列说法正确的是?( ) 选项: A:模型正确率很高,不需要优化模型了 B:模型正确率并不能反映模型的真实效果 C:无法对模型做出好坏评价 D:以上说法都不对 答案: 【模型正确率并不能反映模型的真实效果】
13、 问题:以下关于交叉验证说法正确的是 ( )。 选项: A:交叉验证可利用模型选择避免过拟合的情况 B:交叉验证可对模型性能合理评估 C:交叉验证大大增加了计算量 D:以上说法都不对 答案: 【交叉验证可利用模型选择避免过拟合的情况 ; 交叉验证可对模型性能合理评估; 交叉验证大大增加了计算量 】
14、 问题:评价指标中,精确率(Precision)的计算需要哪些数值 ( )。 选项: A:TP B:TN C:FP D:FN 答案: 【TP; FP】
15、 问题:评价指标中,召回率(Recall)的计算需要哪些数值 ( )。 选项: A:TP B:TN C:FP D:FN 答案: 【TP; FN】
16、 问题:评估完模型之后,发现模型存在高偏差(high bias),应该如何解决?( ) 选项: A:减少模型的特征数量 B:增加模型的特征数量 C:增加样本数量 D:尝试减少正则化系数 答案: 【增加模型的特征数量; 尝试减少正则化系数】
17、 问题:特征空间越大,过拟合的可能性越大。 选项: A:正确 B:错误 答案: 【正确】
18、 问题:L2 正则化得到的解更加稀疏。 选项: A:正确 B:错误 答案: 【错误】
19、 问题:SMOTE算法是用了上采样的方法。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:100万条数据划分训练集、验证集、测试集,数据可以这样划分:98%,1%,1% 。 选项: A:正确 B:错误 答案: 【正确】
KNN算法 KNN算法课后测验 1、 问题:下列哪个距离度量不在KNN算法中体现:( )。 选项: A:切比雪夫距离 B:欧氏距离 C:余弦相似度 D:曼哈顿距离 答案: 【余弦相似度】
2、 问题:下列选项中,关于KNN算法说法不正确是:( )。 选项: A:能找出与待预测样本相近的K个样本 B:默认使用欧氏距离度量 C:实现过程相对简单,但是可解释性不强 D:效率很高 答案: 【效率很高】
3、 问题:以下距离度量方法中,在城市道路里,要从一个十字路口开车到另外一个十字路口的距离是: ( )。 选项: A:夹角余弦 B:切比雪夫距离 C:曼哈顿距离 D:欧氏距离 答案: 【曼哈顿距离】
4、 问题:以下关于KD树的说法错误的是 ( )。 选项: A:KD树是一种对k维空间的数据进行存储以便于快速检索的树形数据结构 B:KD树主要用于多维空间关键数据的检索 C:KD树节点与k维中垂直与超平面的那一维有关 D:所有x值小于指定值的节点会出现在右子树 答案: 【所有x值小于指定值的节点会出现在右子树】
5、 问题:利用KD树进行搜索时,正确的方式是 ( )。 选项: A:查询数据从子节点开始 B:若数据小于对应节点中k维度的值,则访问左节点 C:回溯过程是为了找距离较远的点 D:回溯的判断过程是从上往下进行的 答案: 【若数据小于对应节点中k维度的值,则访问左节点】
6、 问题:以下哪项是KNN算法的缺点?( ) 选项: A:低精度 B:对异常值不敏感 C:计算成本高 D:需要的内存非常少 答案: 【计算成本高】
7、 问题:关于余弦相似度,不正确的是( )。 选项: A:余弦相似度的范围为[-1,1] B:余弦相似度的结果和向量的长度无关 C:余弦相似度为-1时候,两个向量完全不相关 D:余弦相似度为1的时候,两个向量完全相关 答案: 【余弦相似度为-1时候,两个向量完全不相关】
8、 问题:KD树(K-Dimension Tree)的描述中,不正确的是( )。 选项: A:KD树是二叉树 B:KD树可以用更高的效率来对空间进行划分 C:KD树的结构非常适合寻找最近邻居和碰撞检测 D:KD树切分时,从方差小的维度开始切分 答案: 【KD树切分时,从方差小的维度开始切分】
9、 问题:假设有 6 个二维数据点:D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)},第一次切分时候,切分线为( )。 选项: A:x=5 B:x=6 C:y=5 D:y=6 答案: 【x=6】
10、 问题:KNN算法在什么情况下效果较好?( ) 选项: A:样本较多但典型性不好 B:样本较少但典型性好 C:样本呈团状分布 D:样本呈链状分布 答案: 【样本较少但典型性好】
11、 问题:关于KNN算法的描述,不正确的是( )。 选项: A:可以用于分类 B:可以用于回归 C:距离度量的方式通常用曼哈顿距离 D:K值的选择一般选择一个较小的值 答案: 【距离度量的方式通常用曼哈顿距离】
12、 问题:两个向量的长度分别为1和2,两者之间的夹角为60度,则以下选项错误的是( )。 选项: A:余弦相似度为0.5 B:余弦相似度为正 C:余弦相似度没法计算,因为没给出具体坐标值 D:余弦相似度的值与向量的长度无关,只和向量之间的夹角有关 答案: 【余弦相似度没法计算,因为没给出具体坐标值】
13、 问题:影响KNN算法效果的主要因素包括( )。 选项: A:K的值 B:距离度量方式 C:决策规则 D:最邻近数据的距离 答案: 【K的值; 距离度量方式; 决策规则】
14、 问题:以下关于KNN说法正确的是 (多选)( )。 选项: A:计算复杂度低 B:对数据没有假设 C:对异常值不敏感 D:可解释性好 答案: 【计算复杂度低; 对数据没有假设; 对异常值不敏感】
15、 问题:闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的,以下哪项是正确的:( )。 选项: A:p取1时是曼哈顿距离 B:p取2时是欧氏距离 C:p取无穷时是切比雪夫距离 D:闵可夫斯基空间不同于牛顿力学的平坦空间 答案: 【p取1时是曼哈顿距离; p取2时是欧氏距离; p取无穷时是切比雪夫距离; 闵可夫斯基空间不同于牛顿力学的平坦空间】
16、 问题:KNN算法的缺点包括以下几点?( ) 选项: A:可解释性差,无法给出决策树那样的规则 B:对训练数据依赖度特别大,当样本不平衡的时候,对少数类的预测准确率低 C:对异常值敏感 D:计算复杂性高;空间复杂性高,尤其是特征数非常多的时候 答案: 【可解释性差,无法给出决策树那样的规则; 对训练数据依赖度特别大,当样本不平衡的时候,对少数类的预测准确率低; 计算复杂性高;空间复杂性高,尤其是特征数非常多的时候】
17、 问题:两个向量的余弦相似度越接近1,说明两者越相似。 选项: A:正确 B:错误 答案: 【正确】
18、 问题:k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于分类,但不能用于回归方法。 选项: A:正确 B:错误 答案: 【错误】
19、 问题:KNN没有显示的训练过程,它在训练阶段只是把数据保存下来,训练时间开销为0,等收到测试样本后进行处理。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:KNN分类的时候,对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。 选项: A:正确 B:错误 答案: 【正确】
决策树 决策树课后测验 1、 问题:以下关于决策树特点分析的说法错误的有 ( )。 选项: A:推理过程容易理解,计算简单 B:算法考虑了数据属性之间的相关性 C:算法自动忽略了对模型没有贡献的属性变量 D:算法容易造成过拟合 答案: 【算法考虑了数据属性之间的相关性】
2、 问题:以下关于决策树原理介绍错误的有 ( )。 选项: A:决策树算法属于无监督学习 B:决策树算法本质上是贪心算法 C:决策树生成过程中需要用到分割法 D:决策树决策过程从根节点开始 答案: 【决策树算法属于无监督学习】
3、 问题:我们想要在大数据集上训练决策树模型,为了使用较少的时间,可以:( )。 选项: A:增加树的深度 B:增大学习率 C:减少树的深度 D:减少树的数量 答案: 【减少树的深度】
4、 问题:以下关于决策树算法说法错误的是 ( )。 选项: A:ID3算法选择信息增益最大的特征作为当前决策节点 B:C4.5算法选择信息增益率来选择属性 C:C4.5算法不能用于处理不完整数据 D:CART算法选择基尼系数来选择属性 答案: 【C4.5算法不能用于处理不完整数据】
5、 问题:以下关于剪枝操作说法正确的是 ( )。 选项: A:CART采用的是悲观策略的预剪枝 B:ID3没有剪枝策略 C:C4.5采用的是基于代价函数的后剪枝 D:以上说法都不对 答案: 【ID3没有剪枝策略】
6、 问题:C4.5选择属性用的是( )。 选项: A:信息增益 B:信息增益率 C:交叉熵 D:信息熵 答案: 【信息增益率】
7、 问题:7.哪种决策树没有剪枝操作( )。 选项: A:C4.5 B:CART C:ID3 D:以上都不对 答案: 【ID3】
8、 问题:以下那种说法是错误的( )。 选项: A:信息增益 = 信息熵 – 条件熵 B:一个系统越是混乱,随机变量的不确定性就越大,信息熵就越高 C:一个系统越是有序,信息熵就越低 D:中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵 答案: 【中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵】
9、 问题:ID3 算法的缺点不包括( )。 选项: A:ID3 没有剪枝策略,容易过拟合 B:信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1 C:既能用于处理离散分布的特征,也能用于连续分布的特征处理 D:没有考虑缺失值 答案: 【既能用于处理离散分布的特征,也能用于连续分布的特征处理】
10、 问题:关于CART算法,错误的是( )。 选项: A:可以处理样本不平衡问题 B:CART 分类树采用基尼系数的大小来度量特征的各个划分点 C:CART算法既可以处理分类问题,也可以处理回归问题 D:CART算法采用信息增益率的大小来度量特征的各个划分点 答案: 【CART算法采用信息增益率的大小来度量特征的各个划分点】
11、 问题:关于C4.5算法,错误的是( )。 选项: A:C4.5算法采用基尼系数的大小来度量特征的各个划分点 B:C4.5算法可以处理非离散的数据 C:C4.5算法引入悲观剪枝策略进行后剪枝 D:C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点 答案: 【C4.5算法采用基尼系数的大小来度量特征的各个划分点】
12、 问题:ID3选择属性用的是( )。 选项: A:信息增益 B:信息增益率 C:交叉熵 D:信息熵 答案: 【信息增益】
13、 问题:决策树有哪些代表算法 ( )。 选项: A:CNN B:C4.5 C:CART D:ID3 答案: 【C4.5; CART ; ID3】
14、 问题:以下那种算法需要对数据进行归一化或者标准化( )。 选项: A:逻辑回归 B:决策树 C:KNN D:线性回归 答案: 【逻辑回归; KNN; 线性回归】
15、 问题:关于剪枝,以下算法正确的是:( )。 选项: A:决策树剪枝的基本策略有预剪枝和后剪枝 B:ID3算法没有剪枝操作 C:剪枝是防止过拟合的手段 D:C4.5算法没有剪枝操作 答案: 【决策树剪枝的基本策略有预剪枝和后剪枝; ID3算法没有剪枝操作; 剪枝是防止过拟合的手段】
16、 问题:决策树的说法正确的是( )。 选项: A:它易于理解、可解释性强 B:其可作为分类算法,也可用于回归模型 C:CART使用的是二叉树 D:不能处理连续型特征 答案: 【它易于理解、可解释性强; 其可作为分类算法,也可用于回归模型; CART使用的是二叉树】
17、 问题:ID3 算法的核心思想就是以信息增益来度量特征选择,选择信息增益最大的特征进行分裂。 选项: A:正确 B:错误 答案: 【正确】
18、 问题:C4.5是通过代价复杂度剪枝。 选项: A:正确 B:错误 答案: 【错误】
19、 问题:ID3 算法只能用于处理离散分布的特征。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:ID3和C4.5和CART都只能用于分类问题,不能用于回归问题。 选项: A:正确 B:错误 答案: 【错误】
集成学习 集成学习课后测验 1、 问题:在随机森林里,你生成了几百颗树(T1, T2 ……Tn),然后对这些树的结果进行综合,下面关于随机森林中每颗树的说法正确的是?( ) 选项: A:每棵树是通过数据集的子集和特征的子集构建的 B:每棵树是通过所有的特征构建的 C:每棵树是通过所有的数据构建的 D: 以上都不对 答案: 【每棵树是通过数据集的子集和特征的子集构建的】
2、 问题:以下关于集成学习特性说法错误的是( )。 选项: A:集成学习需要各个弱分类器之间具备一定的差异性 B:弱分类器的错误率不能高于0.5 C:集成多个线性分类器也无法解决非线性分类问题 D:当训练数据集较大时,可分为多个子集,分别进行训练分类器再合成 答案: 【集成多个线性分类器也无法解决非线性分类问题】
3、 问题:以下关于随机森林(Random Forest)说法正确的是( )。 选项: A:随机森林由若干决策树组成,决策树之间存在关联性 B:随机森林学习过程分为选择样本、选择特征、构建决策树、投票四个部分 C:随机森林算法容易陷入过拟合 D:随机森林构建决策树时,是无放回的选取训练数据 答案: 【随机森林学习过程分为选择样本、选择特征、构建决策树、投票四个部分】
4、 问题:以下关于AdaBoost算法说法正确的是( )。 选项: A:AdaBoost使用的损失函数是指数函数 B:在训练过程中,若某个样本点已经被准确分类,则在构造下一个训练集时,该样本的权重会下降 C:在投票时,分类误差小的弱分类器权重较小 D:以上说法都不对 答案: 【AdaBoost使用的损失函数是指数函数】
5、 问题:以下关于GBDT算法说法错误的是( )。 选项: A:GBDT是由多棵回归树组成 B:GBDT泛化能力较强 C:GBDT使用的是放回采样 D:GBDT需要使用剪枝操作 答案: 【GBDT使用的是放回采样】
6、 问题:XGBoost算法说法错误的是 ( ) 选项: A:XGBoost算法的目标函数采用了二阶泰勒展开 B:XGBoost算法的速度要比GBDT快 C:XGBoost算法要求对数据进行归一化或者标准化 D:XGBoost算法的效果通常优于传统的机器学习模型 答案: 【XGBoost算法要求对数据进行归一化或者标准化】
7、 问题:关于Bagging方法,以下说法错误的是( ) 选项: A:对各弱分类器的训练可以通过并行方式完成 B:最终分类结果是由各弱分类器以一定的方式投票决定的 C:由于各分类器是独立的,弱分类器的训练数据也是相互独立的 D:对各弱分类器的训练可以通过串行方式进行 答案: 【对各弱分类器的训练可以通过串行方式进行】
8、 问题:Adboost的优点不包括( ) 选项: A:分类精度高 B:对异常点敏感,异常点会获得较高权重 C:可以用各种回归分类模型来构建弱学习器,非常灵活 D:不容易发生过拟合 答案: 【对异常点敏感,异常点会获得较高权重】
9、 问题:LightGBM与XGBoost相比,主要的优势不包括( ) 选项: A:更快的训练速度 B:更低的内存消耗 C:更好的准确率 D:采用二阶泰勒展开加快收敛 答案: 【采用二阶泰勒展开加快收敛】
10、 问题:随机森林和GBDT的描述不正确的是( ) 选项: A:两者都是由多棵树组成,最终的结果都是由多棵树一起决定 B:两者都是使用了Boosting思想 C:随机森林最终是多棵树进行多数表决(回归问题是取平均),而GBDT是加权融合 D:随机森林每次迭代的样本是从全部训练集中有放回抽样形成的,而GBDT每次使用全部样本 答案: 【两者都是使用了Boosting思想】
11、 问题:以下那种算法不是集成学习算法( ) 选项: A:随机森林 B:AdaBoost C:XGBoost D:决策树 答案: 【决策树】
12、 问题:GBDT算法的描述,不正确的是( ) 选项: A:决策树+Boosting=GBDT B:GBDT算法主要是用了Boosting方法 C:GBDT与AdaBoost 的对比,都是 Boosting 家族成员,使用弱分类器;都使用前向分步算法 D:梯度提升算法通过迭代地选择一个梯度方向上的基函数来逐渐逼近局部极小值 答案: 【梯度提升算法通过迭代地选择一个梯度方向上的基函数来逐渐逼近局部极小值】
13、 问题:集成学习有以下哪几种代表算法 (多选)( )。 选项: A:随机森林 B:AdaBoost C:SVM D:K-means 答案: 【随机森林; AdaBoost】
14、 问题:下面关于随机森林和梯度提升集成方法的说法哪个是正确的?(多选) ( ) 选项: A:这两种方法都可以用来做分类 B:随机森林用来做分类,梯度提升用来做回归 C:随机森林用来做回归,梯度提升用来做分类 D:两种方法都可以用来做回归 答案: 【这两种方法都可以用来做分类; 两种方法都可以用来做回归】
15、 问题:LightGBM与XGBoost相比,主要有以下几个改进:(多选) ( ) 选项: A:基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS) B:互斥特征捆绑算法(Exclusive Feature Bundling, EFB) C:直方图算法(Histogram) D:基于最大深度的 Leaf-wise 的垂直生长算法 答案: 【基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS); 互斥特征捆绑算法(Exclusive Feature Bundling, EFB); 直方图算法(Histogram); 基于最大深度的 Leaf-wise 的垂直生长算法】
16、 问题:GBDT由哪三个概念组成:( ) 选项: A:Regression Decision Tree(即 DT) B:Gradient Boosting(即 GB) C:Shrinkage(缩减) D:Bootstrap(自助采样法) 答案: 【Regression Decision Tree(即 DT); Gradient Boosting(即 GB); Shrinkage(缩减)】
17、 问题:XGBoost对损失函数做了二阶泰勒展开,GBDT只用了一阶导数信息,并且XGBoost还支持自定义损失函数,只要损失函数一阶、二阶可导。( ) 选项: A:正确 B:错误 答案: 【正确】
18、 问题:集成学习的数据不需要归一化或者标准化。 选项: A:正确 B:错误 答案: 【正确】
19、 问题:LightGBM在建树过程中,采用基于最大深度的 Leaf-wise 的垂直生长算法。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:随机森林和GBDT都是使用了Bagging思想。 选项: A:正确 B:错误 答案: 【错误】
支持向量机 支持向量机课后测验 1、 问题:对于在原空间中线性不可分问题,支持向量机()。 选项: A:在原空间中寻找非线性函数的划分数据 B:无法处理 C:在原空间中寻找线性函数划分数据 D:将数据映射到核空间中 答案: 【将数据映射到核空间中】
2、 问题:关于支持向量机中硬间隔和软间隔的说法错误的是()。 选项: A:软间隔允许一定的样本分类错误 B:硬间隔要求所有数据分类完全准确,不允许出现错误 C:软间隔有利于获取更大的分类间隔 D:硬间隔有利于消除模型的过拟合 答案: 【硬间隔有利于消除模型的过拟合】
3、 问题:关于各类核函数的优缺点说法错误的是:()。 选项: A:线性核计算简单,可解释性强 B:高斯核能够应对较为复杂的数据 C:多项式核需要多次特征转换 D:高斯核计算简单,不容易过拟合 答案: 【高斯核计算简单,不容易过拟合】
4、 问题:如果一个样本空间线性可分,那么,我们能找到( )个平面来划分样本。 选项: A:不确定 B:1 C:无数 D:2 答案: 【无数】
5、 问题:SVM算法的最小时间复杂度是O(n^2)。基于这一点,以下哪种规格的数据集并不适用于该算法?( ) 选项: A:大数据集 B:小数据集 C:中数据集 D:不受数据集大小的影响 答案: 【大数据集】
6、 问题:线性SVM和一般线性分类器的区别主要是:( )。 选项: A:是否进行了空间映射 B:是否确保间隔最大化 C:是否能处理线性不可分问题 D:训练误差通常较低 答案: 【是否确保间隔最大化】
7、 问题:在SVM中, margin的含义是() 选项: A:差额 B:损失误差 C:间隔 D:幅度 答案: 【间隔】
8、 问题:SVM算法的性能取决于:( ) 选项: A:核函数的选择 B:核函数的参数 C:软间隔参数C D:以上所有 答案: 【以上所有】
9、 问题:SVM中的代价参数C表示什么? 选项: A:交叉验证的次数 B:用到的核函数 C:在分类准确性和模型复杂度之间的权衡 D:以上都不对 答案: 【在分类准确性和模型复杂度之间的权衡】
10、 问题:一个正例(2,3),一个负例(0,-1),下面哪个是SVM超平面?( ) 选项: A:2x+y-4=0 B:2y+x-5=0 C:x+2y-3=0 D:无法计算 答案: 【x+2y-3=0】
11、 问题:SVM 原理描述不正确的是( )。 选项: A:当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机 B:当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机 C:当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机 D:SVM 的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器 答案: 【SVM 的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器】
12、 问题:SVM普遍使用的准则描述不正确的是:( )(n为特征数,m为训练样本数。) 选项: A:如果相较于m而言,n要大许多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。 B:如果n较小,而且m大小中等,例如n在 1-1000 之间,而m在10-10000之间,使用高斯核函数的支持向量机。 C:支持向量机理论上不能处理太多的特征。 D:如果n较小,而m较大,例如n在1-1000之间,而m大于50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。 答案: 【支持向量机理论上不能处理太多的特征。】
13、 问题:以下关于支持向量机的说法正确的是 ( )。 选项: A:SVM适用于大规模数据集 B:SVM分类思想就是将分类面之间的间隔最小化 C:SVM方法简单,鲁棒性较好 D:SVM分类面取决于支持向量 答案: 【SVM方法简单,鲁棒性较好; SVM分类面取决于支持向量】
14、 问题:支持向量机有哪些常用的核函数( )。 选项: A:高斯核 B:拉普拉斯核 C:线性核 D:多项式核 答案: 【高斯核; 线性核; 多项式核】
15、 问题:下面关于支持向量机的描述正确的是( )。 选项: A:是一种监督学习的方法 B:可用于多分类的问题 C:支持非线性的核函数 D:是一种生成模型 答案: 【是一种监督学习的方法; 可用于多分类的问题; 支持非线性的核函数】
16、 问题:关于SVM的描述正确的是:( ) 选项: A:支持向量机模型定义在特征空间上的间隔最大的线性分类器 B:支持向量机可以通过核技巧,这使之成为实质上的非线性分类器 C:支持向量机的学习策略就是间隔最大化 D:支持向量机训练时候,数据不需要归一化或者标准化 答案: 【支持向量机模型定义在特征空间上的间隔最大的线性分类器; 支持向量机可以通过核技巧,这使之成为实质上的非线性分类器; 支持向量机的学习策略就是间隔最大化】
17、 问题:SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小间隔分类器(minimal margin classifier) 。 选项: A:正确 B:错误 答案: 【错误】
18、 问题:SVM的数据需要归一化或者标准化。 选项: A:正确 B:错误 答案: 【正确】
19、 问题:支持向量是最靠近决策表面的数据点。 选项: A:正确 B:错误 答案: 【正确】
20、 问题:SVM中核函数将高维空间中的数据映射到低维空间。 选项: A:正确 B:错误 答案: 【错误】
聚类 聚类课后测验 1、 问题:1 聚类属于哪种学习方式 ( )。 选项: A:监督学习 B:无监督学习 C:强化学习 D:都不属于 答案: 【无监督学习】
2、 问题:下列关于Kmeans聚类算法的说法错误的是( )。 选项: A:对大数据集有较高的效率并且具有可伸缩性 B:是一种无监督学习方法 C:K值无法自动获取,初始聚类中心随机选择 D:初始聚类中心的选择对聚类结果影响不大 答案: 【初始聚类中心的选择对聚类结果影响不大】
3、 问题:以下关于K-means算法错误的有 ( )。 选项: A:K-means算法需要指定簇的个数 B:K-means算法本质上是EM(期望最大化)方法 C:K-means算法不会出现局部极小值的问题 D:K-means在重新计算质心,簇会发生变化 答案: 【K-means算法不会出现局部极小值的问题】
4、 问题:以下不属于聚类算法的是( )。 选项: A:K-means B:DBSCAN C:Apriori D:AGENES 答案: 【Apriori】
5、 问题:简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。 选项: A:层次聚类 B:划分聚类 C:非互斥聚类 D:密度聚类 答案: 【划分聚类】
6、 问题:关于K均值和DBSCAN的比较,以下说法不正确的是( )。 选项: A:DBSCAN使用基于密度的概念 B:K均值使用簇的基于层次的概念 C:K均值很难处理非球形的簇和不同大小的簇 D:DBSCAN可以处理不同大小和不同形状的簇。 答案: 【K均值使用簇的基于层次的概念】
7、 问题:关于聚类的说法正确的有 ( ) 选项: A:其目的是根据过去的观测结果来预测新样本的标签为聚类 B:聚类的算法训练样本往往都不含有标签 C:聚类算法对于孤立的野值不敏感 D:聚类算法的更新步骤可解释性不强 答案: 【聚类的算法训练样本往往都不含有标签】
8、 问题:关于kmean算法的实现描述错误的是 ( ) 选项: A:收敛速度慢 B:原理简单,实现容易 C:可以轻松发现非凸形状的簇 D:需要事先确定k的值 答案: 【可以轻松发现非凸形状的簇】
9、 问题:以下哪些不是聚类中用于衡量度量距离的指标 ( )。 选项: A:汉明距离 B:马氏距离 C:曼哈顿距离 D:欧式距离 答案: 【马氏距离】
10、 问题:以下哪些可作为kmeans方法停止循环的指标 ( )。 选项: A:当各个类中心还在发生偏移的时候 B:当所有的野值点均隶属于一个簇的时候 C:当循环数超过某一个阈值的时候 D:当所有数据隶属的簇不再发生变化的时候 答案: 【当所有数据隶属的簇不再发生变化的时候】
11、 问题:关于密度聚类和层次聚类说法错误的是 ( )。 选项: A:密度聚类对噪声数据非常敏感 B:密度聚类假设类结构能通过样本分布的紧密程度确定 C:层次聚类对给定的数据进行有层次的分解,直到满足条件为止 D:层次聚类有自底向上和自顶向下两种策略 答案: 【密度聚类对噪声数据非常敏感】
12、 问题:当簇内样本点数量大于某个阈值时,便将该簇进行拆分,这种聚类方式为 ( )。 选项: A:层次聚类 B:划分聚类 C:非互斥聚类 D:密度聚类 答案: 【密度聚类】
13、 问题:13 聚类的代表算法有 ( )。 选项: A:PCA B:SVD C:DBSCAN D:K-means 答案: 【DBSCAN; K-means】
14、 问题:下面哪些是聚类的评价指标( )。 选项: A:均一性 B:完整性 C:轮廓系数 D:决定系数R 答案: 【均一性; 完整性; 轮廓系数】
15、 问题:关于层次聚类,正确的是( )。 选项: A:分裂聚类是从上而下进行聚类 B:聚合聚类是从下而上进行聚类 C:层次聚类又有聚合聚类(自下而上)、分裂聚类(自上而下)两种方法 D:因为每个样本只属于一个簇,所以层次聚类属于硬聚类 答案: 【分裂聚类是从上而下进行聚类; 聚合聚类是从下而上进行聚类; 层次聚类又有聚合聚类(自下而上)、分裂聚类(自上而下)两种方法; 因为每个样本只属于一个簇,所以层次聚类属于硬聚类】
16、 问题:关于DBSCAN算法,以下说法正确的是( )。 选项: A:DBSCAN算法是一种基于划分的聚类算法 B:DBSCAN算法将点分成核心点、边界点和噪音点三类 C:DBSCAN算法是一种基于密度的聚类算法 D:DBSCAN算法需要在指定簇的个数 答案: 【DBSCAN算法将点分成核心点、边界点和噪音点三类; DBSCAN算法是一种基于密度的聚类算法】
17、 问题:如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。 选项: A:正确 B:错误 答案: 【正确】
18、 问题:K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。 选项: A:正确 B:错误 答案: 【错误】
19、 问题:在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 选项: A:正确 B:错误 答案: 【错误】
20、 问题:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。 选项: A:正确 B:错误 答案: 【正确】
降维 降维课后测验 1、 问题:以下关于降维的说法不正确的是? 选项: A:降维是将训练样本从高维空间转换到低维空间 B:降维不会对数据产生损伤 C:通过降维可以更有效地发掘有意义的数据结构 D:降维将有助于实现数据可视化 答案: 【降维不会对数据产生损伤】
2、 问题:降维属于哪种类型的学习问题( )。 选项: A:监督学习 B:无监督学习 C:强化学习 D:以上都不是 答案: 【无监督学习】
3、 问题:以下关于SVD说法正确的有 ( )。 选项: A:SVD可将矩阵分解成三个矩阵的乘积,其中存在两个对角阵 B:SVD并不要求分解矩阵必须是方阵 C:特征向量组成的矩阵并不要求必须是酉矩阵 D:以上说法都不对 答案: 【SVD并不要求分解矩阵必须是方阵】
4、 问题:以下关于PCA说法正确的是 ( )。 选项: A:PCA是一种监督学习算法 B:PCA在转换后的第一个新坐标轴选择的是原始数据中方差最小的方向 C:PCA转换后选择的第一个方向是最主要特征 D:PCA不需要对数据进行归一化处理 答案: 【PCA转换后选择的第一个方向是最主要特征】
5、 问题:以下哪些是PCA算法的主要应用( )。 选项: A:聚类 B:距离度量 C:数据压缩 D:分类 答案: 【数据压缩】
6、 问题:关于PCA特点说法错误的是 ( )。 选项: A:PCA算法完全没有参数限制 B:PCA算法很难去除噪声 C:PCA可以降低算法的计算开销 D:PCA算法需要对对象有一定的先验知识 答案: 【PCA算法很难去除噪声】
7、 问题:关于PCA和SVD比较错误的是 ( )。 选项: A:PCA和SVD都可以用于降低维度 B:SVD可以用来计算伪逆 C:PCA只能获取单个方向的主成分 D:PCA无需进行零均值化 答案: 【PCA无需进行零均值化】
8、 问题:关于维数灾难的说法错误的是 ( )。 选项: A:高维度数据增加了运算难度 B:降低高维度数据维度会对数据有所损伤 C:高维度数据可使得算法泛化能力变得越来越强 D:高维度数据难以可视化 答案: 【高维度数据可使得算法泛化能力变得越来越强】
9、 问题:降维涉及的投影矩阵一般要求正交,正交矩阵用于投影的优缺点说法正确的是 ( )。 选项: A:正交矩阵不便于进行降维和重构计算 B:正交矩阵投影变换之后的矩阵不同坐标之间是不相关的 C:坐标之间去相关后必定有利于提高后续的学习性能 D:以上说法都不对 答案: 【正交矩阵投影变换之后的矩阵不同坐标之间是不相关的】
10、 问题:哪些类型的数据适合做降维 ( )。 选项: A:原始维度不高的数据 B:特征之间存在线性关系的数据 C:维度很高且各个维度之间相关性比较弱的数据 D:以上数据都不适合做降维 答案: 【特征之间存在线性关系的数据】
11、 问题:几种常见的降维算法有共同特点有 ( )。 选项: A:均为无监督学习算法 B:均不要求数据符合高斯分布 C:都利用了矩阵分解的思想 D:都会导致数据过拟合 答案: 【都利用了矩阵分解的思想】
12、 问题:以下关于SVD的优化过程说法错误的是 ( )。 选项: A:SVD分解的矩阵不要求是方阵 B:SVD分解出三个矩阵的乘积的形式,其中一个是奇异值矩阵,另外两个是奇异向量组成的矩阵 C:奇异值跟特征值性质完全不同 D:前面几个奇异值占了全部奇异值之和的绝大部分 答案: 【奇异值跟特征值性质完全不同】
13、 问题:降维的优点有哪些 ( )。 选项: A:减小训练时间 B:方便实现数据可视化 C:方便消除冗余特征 D:可明显提高学习性能 答案: 【减小训练时间; 方便实现数据可视化; 方便消除冗余特征】
14、 问题:下面属于降维常用的技术的有: ( )。 选项: A:主成分分析 B:特征提取 C:奇异值分解 D:离散化 答案: 【主成分分析; 奇异值分解 】
15、 问题:以下关于PCA说法正确的是 (多选)( )。 选项: A:PCA各个主成分之间正交 B:PCA各个主成分维度解释性强 C:PCA运算时需要进行特征值分解 D:PCA运算结果受到属性方差的影响 答案: 【PCA各个主成分之间正交; PCA运算时需要进行特征值分解; PCA运算结果受到属性方差的影响】
16、 问题:PCA算法获取的超平面应具有哪些性质 ( )。 选项: A:最近重构性 B:信息增益最大