超前自学网

 找回密码
 立即注册

奥鹏在线作业,2元一门,先做后付,微信424329

查看: 37|回复: 0

20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据分析》在线作业

[复制链接]

3万

主题

3万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
95816
发表于 2020-10-29 14:52:19 | 显示全部楼层 |阅读模式
微信公众号:超前自学网
点击这里

()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念
A:训练误差
B:测试误差
C:统计误差
D:平均误差

支持向量机的MapReduce实现要进行几轮MapReduce()
A:1
B:2
C:3
D:自行规定

类的R型聚类是指()
A:对样本个体进行聚类
B:对指标变量进行聚类。

在估计PLSA生成模型的参数时,使用()
A:极大似然估计
B:对数似然函数
C:特征独立假设
D:贝叶斯定理

在链接作弊的垃圾农场中,作弊者拥有并完全控制的网页称为()
A:不可达网页
B:可达网页
C:自有网页

潜在语义分析创新地引入了()
A:单词维度
B:文本维度
C:话题维度

非频繁模式(  )
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感

置信度(confidence)是衡量兴趣度度量(  )的指标
A:简洁性
B:确定性
C:实用性
D:新颖性

决策树中的叶结点表示()
A:特征
B:类
C:属性
D:值域输出

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段(  )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段

文本中所有单词的出现情况表示了文本的()
A:种类
B:特征
C:语义内容
D:语义结构

闵式距离参数是()时代表曼哈顿距离
A:0
B:1
C:2
D:无穷

为了计算中介度,必须计算所有边上()的数目。
A:所有路径
B:最短路径
C:结点入度
D:节点出度

聚类属于()
A:有监督学习
B:无监督学习
C:强化学习
D:对抗学习

评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值

逻辑斯谛分布的分布函数范围在()
A:(-∞, ∞)
B:(0,1)
C:(-1/2,1/2)
D:(-1,1)

Apriori算法的加速过程依赖于以下哪个策略( )
A:抽样
B:剪枝
C:缓冲
D:并行

向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵

潜在语义分析中,以()表示文本的语义内容
A:话题
B:话题向量
C:语义向量
D:距离向量

KNN算法用MapReduce实现,要进行几轮MapReduce()
A:1
B:2
C:3
D:4

按社团形成机制分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团

决策树的生成过程是()
A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B:如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C:构建根结点,将所有训练数据都放在根结点
D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点

回归分析方法中,按照输入变量个数分类,可分为
A:一元回归
B:多元回归
C:线性回归
D:非线性回归

下列哪些任务适合构建分类模型()
A:银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
B:邮件系统可以根据email标题和内容区分出垃圾邮件
C:医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D:房价预测

ID3算法流程为()
A:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B:所有特征的信息增益均很小或没有特征可以选择
C:得到一个决策树
D:对子结点递归地调用,构建决策树

大数据在电信中的应用有
A:基于用户、业务及流量分级的多维管控机制
B:精准的客户分析及营销
C:利用位置和轨迹信息服务社会

统计学习方法的组成
A:监督学习
B:无监督学习
C:强化学习

大数据在教育中的应用
A:网上公开课
B:慕课
C:智慧校园
D:翻转课堂

下列属于朴素贝叶斯缺点的是()
A:分类效果不稳定
B:不适合增量式训练
C:先验模型可能导致结果不佳
D:对缺失数据不太敏感

基于分类对象的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式

kNN算法中,选择较大的k值“学习”的估计误差会减小。()
A:对
B:错

SVM是在特征空间上的间隔最大的线性分类器。()
A:对
B:错

可信度是对关联规则的准确度的衡量。
A:对
B:错

要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
A:对
B:错

如果一个网页被很多网页所指向,那么该网页很可能是重要的。()
A:对
B:错

FP-growth算法可以避免冗余的IO读写
A:对
B:错

通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。()
A:对
B:错

大数据的速度快体现在数据产生速度快和要求分析处理速度快
A:对
B:错

ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
A:对
B:错

数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A:对
B:错

TrustRank算法中,创建优质网页集合时,不会选择成员受限的域名。
A:对
B:错

聚类分析中,一个类是样本的一个子集。
A:对
B:错

决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。()
A:对
B:错

k均值聚类是硬聚类。()
A:对
B:错

关联规则可以用枚举的方法产生。
A:对
B:错

DAG中的父节点是唯一的。
A:对
B:错

PageRank算法是图数据上的无监督学习方法。()
A:对
B:错

TF-IDF算法中,IDF指的是文档频率
A:对
B:错

监督学习是从标注数据中学习预测模型的机器学习问题
A:对
B:错

朴素贝叶斯等价于期望风险最小化。()
A:对
B:错

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|超前自学网 ( 皖ICP备20014425号-1 )|网站地图

GMT+8, 2025-5-5 07:18

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表