超前自学网

 找回密码
 立即注册

奥鹏在线作业,2元一门,先做后付,微信424329

查看: 31|回复: 0

20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业

[复制链接]

3万

主题

3万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
95816
发表于 2020-10-29 14:45:00 | 显示全部楼层 |阅读模式
微信公众号:超前自学网
点击这里

以下哪一项不是特征选择常见的方法()
A:过滤式
B:封装式
C:嵌入式
D:开放式

利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A:最小化方差#最小化标准差
B:最小化残差平方和
C:最大化信息熵

以下哪些不是缺失值的影响()
A:数据建模将丢失大量有用信息
B:数据建模的不确定性更加显著
C:对整体总是不产生什么作用
D:包含空值的数据可能会使建模过程陷入混乱,导致异常的输出

下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度

哪一项不属于规范化的方法()
A:最小-最大规范化
B:零-均值规范化
C:小数定标规范化
D:中位数规范化

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A:关联规则发现
B:聚类
C:分类
D:自然语言处理

考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5

为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A:1
B:2
C:3
D:4

设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A:4
B:5
C:6
D:7

以下哪一项不属于数据变换()
A:简单函数变换
B:规范化
C:属性合并
D:连续属性离散化

一元线性回归中,真实值与预测值的差称为样本的()。
A:误差
B:方差
C:测差
D:残差

聚类的最简单最基本方法是()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类

单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型

在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线

在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大

某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元

对于k近邻法,下列说法错误的是()。
A:不具有显式的学习过程
B:适用于多分类任务
C:k值越大,分类效果越好
D:通常采用多数表决的分类决策规则

实体识别属于以下哪个过程()
A:数据清洗
B:数据集成
C:数据规约
D:数据变换

在回归分析中,自变量为(),因变量为()。
A:离散型变量,离散型变量
B:连续型变量,离散型变量
C:离散型变量,连续型变量
D:连续型变量,连续型变量

在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A:越小
B:越大
C:无关
D:不确定

K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取

系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率

Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度

距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离

k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则

多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播

一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法

什么情况下结点不用划分()
A:当前结点所包含的样本全属于同一类别
B:当前属性集为空,或是所有样本在所有属性上取值相同
C:当前结点包含的样本集为空
D:还有子集不能被基本正确分类

数据科学具有哪些性质()
A:有效性
B:可用性
C:未预料
D:可理解

下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量

剪枝是决策树学习算法对付“过拟合”的主要手段
A:对
B:错

给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A:对
B:错

相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
A:对
B:错

分拆方法是自底向上的方法。
A:对
B:错

探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
A:对
B:错

在数据预处理时,无论什么情况,都可以直接将异常值删除
A:对
B:错

对于项集来说,置信度没有意义。
A:对
B:错

给定关联规则A→B,意味着:若A发生,B也会发生。
A:对
B:错

信息熵越小,样本结合的纯度越低
A:对
B:错

聚合方法是自底向上的方法。
A:对
B:错

BFR聚类簇的坐标可以与空间的坐标保持一致。
A:对
B:错

集中趋势能够表明在一定条件下数据的独特性质与差异
A:对
B:错

利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
A:对
B:错

朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
A:对
B:错

数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。
A:对
B:错

使用SVD方法进行图像压缩不可以保留图像的重要特征。
A:对
B:错

K均值(K-Means)算法是密度聚类。
A:对
B:错

K-means算法采用贪心策略,通过迭代优化来近似求解。
A:对
B:错

获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
A:对
B:错

特征的信息增益越大,则其越不重要。
A:对
B:错

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|超前自学网 ( 皖ICP备20014425号-1 )|网站地图

GMT+8, 2025-5-5 06:37

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表