超前自学网

 找回密码
 立即注册

奥鹏在线作业,2元一门,先做后付,微信424329

查看: 90|回复: 0

20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业

[复制链接]

3万

主题

3万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
95816
发表于 2020-10-30 04:02:37 | 显示全部楼层 |阅读模式
微信公众号:超前自学网
点击这里

以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模

哪一项不属于规范化的方法()
A:最小-最大规范化
B:零-均值规范化
C:小数定标规范化
D:中位数规范化

实体识别属于以下哪个过程()
A:数据清洗
B:数据集成
C:数据规约
D:数据变换

具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A:1,线性
B:2,线性
C:1,非线性
D:2,非线性

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A:关联规则发现
B:聚类
C:分类
D:自然语言处理

层次聚类适合规模较()的数据集
A:大
B:中
C:小
D:所有

下面不是分类的常用方法的有()
A:K近邻法
B:朴素贝叶斯
C:决策树
D:条件随机场

BFR聚类用于在()欧氏空间中对数据进行聚类
A:高维
B:中维
C:低维
D:中高维

只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A:计数属性
B:离散属性
C:非对称的二元属性#对称属性

为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A:1
B:2
C:3
D:4

在回归分析中,自变量为(),因变量为()。
A:离散型变量,离散型变量
B:连续型变量,离散型变量
C:离散型变量,连续型变量
D:连续型变量,连续型变量

维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A:K-means
B:Bayes Network
C:C4.5
D:Apriori

一元线性回归中,真实值与预测值的差称为样本的()。
A:误差
B:方差
C:测差
D:残差

以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写

数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A:异常值
B:缺失值
C:不一致的值
D:重复值

根据映射关系的不同可以分为线性回归和()。
A:对数回归
B:非线性回归
C:逻辑回归
D:多元回归

在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大

考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5

单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型

特征选择的四个步骤中不包括()
A:子集产生
B:子集评估
C:子集搜索
D:子集验证

对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层

Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度

一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法

层次聚类的方法是()
A:聚合方法
B:分拆方法
C:组合方法
D:比较方法

相关性的分类,按照相关的方向可以分为()。
A:正相关
B:负相关
C:左相关
D:右相关

数据科学具有哪些性质()
A:有效性
B:可用性
C:未预料
D:可理解

k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则

下列选项是BFR的对象是()
A:废弃集
B:临时集
C:压缩集
D:留存集

什么情况下结点不用划分()
A:当前结点所包含的样本全属于同一类别
B:当前属性集为空,或是所有样本在所有属性上取值相同
C:当前结点包含的样本集为空
D:还有子集不能被基本正确分类

系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率

在一元线性回归中,输入只包含一个单独的特征。
A:对
B:错

sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
A:对
B:错

多层感知机的学习能力有限,只能处理线性可分的二分类问题。
A:对
B:错

BFR聚类簇的坐标可以与空间的坐标保持一致。
A:对
B:错

支持度是衡量关联规则重要性的一个指标。
A:对
B:错

利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
A:对
B:错

信息熵越小,样本结合的纯度越低
A:对
B:错

在数据预处理时,无论什么情况,都可以直接将异常值删除
A:对
B:错

决策树的输入为训练集,输出为以node为根结点的一棵决策树
A:对
B:错

单层感知机对于线性不可分的数据,学习过程也可以收敛。
A:对
B:错

朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
A:对
B:错

随着特征维数的增加,样本间区分度提高。
A:对
B:错

选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
A:对
B:错

一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
A:对
B:错

决策树内部结点表示一个类,叶结点表示一个特征或属性
A:对
B:错

为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
A:对
B:错

K均值(K-Means)算法是密度聚类。
A:对
B:错

Apriori算法是一种典型的关联规则挖掘算法。
A:对
B:错

当特征为离散型时,可以使用信息增益作为评价统计量。
A:对
B:错

EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
A:对
B:错

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|超前自学网 ( 皖ICP备20014425号-1 )|网站地图

GMT+8, 2025-5-2 22:15

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表