超前自学网

 找回密码
 立即注册

奥鹏在线作业,2元一门,先做后付,微信424329

查看: 47|回复: 0

20春学期(1709、1803、1809、1903、1909、2003)《数据分析》在线作业

[复制链接]

3万

主题

3万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
95816
发表于 2020-10-30 04:08:43 | 显示全部楼层 |阅读模式
微信公众号:超前自学网
点击这里

朴素贝叶斯中,给定输入x,求解在x出现的前提下各个类别出现的概率,哪个最大,就认为x属于哪个类别。即选择()最大的类别。
A:后验概率
B:先验概率
C:极大似然估计

维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A:K-means
B:Bayes Network
C:C4.5
D:Apriori

皮尔森相关系数的变化分为是()
A:[0, 1]
B:[-1, 1]
C:[-1, 0]
D:[0.5, 1]

基于MapReduce的Apriori算法,共进行几轮MapReduce()
A:1
B:2
C:3
D:4

向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵

特征空间中两个实例点的()是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离

聚合聚类算法的代表是()
A:AGNES
B:Apriori
C:KNN
D:FP-Growth

数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段(  )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段

针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法

以下属于关联分析的是(  )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模

以下哪个会降低Apriori算法的挖掘效率(  )
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率

Apriori算法使用到以下哪些(  )
A:格结构、有向无环图
B:二叉树、哈希树
C:格结构、哈希树
D:多叉树、有向无环图

评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值

闵式距离参数是()时代表曼哈顿距离
A:0
B:1
C:2
D:无穷

聚类过程为()
A:数据准备,特征选择,特征提取,聚类,结果评估
B:数据准备,特征提取,特征选择,聚类,结果评估
C:数据准备,特征提取,聚类,特征选择,结果评估

大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()
A:实时分析
B:弱实时分析
C:非实时分析

模型参数估计变为以()为目标函数的最优化问题
A:交叉熵损失函数
B:合页损失函数
C:对数似然函数
D:KL散度

用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法

向量空间的度量,表示文本之间的()。
A:关系
B:相似度
C:语义关系
D:语义相似度

k近邻法中的分类决策规则往往是()
A:依权重表决
B:多数表决
C:前提设定
D:随机决定

基于聚类结构的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式

关联规则用于查找项目集合或对象集合之间的()
A:频繁模式
B:关联
C:相关性
D:因果结构

两个个体之间的距离需满足什么条件()
A:自反性
B:非负性
C:对称性
D:三角形法则

以下什么问题可以归为回归问题()
A:市场趋势预测
B:产品质量管理
C:客户满意度调查
D:投资风险分析

聚类方法包括()
A:划分方法
B:层次方法
C:对象方法
D:基于密度的方法

概率潜在语义分析中,模型生成的是(),但观测到的是()。
A:单词-话题-文本三元组
B:话题-文本二元组
C:单词-话题二元组
D:单词-文本二元组

连续性变量的距离可用以下()方法衡量
A:曼哈顿距离
B:切比雪夫距离
C:.Jaccard相似系数
D:皮尔森相关系数

按主题分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团

统计学习方法的组成
A:监督学习
B:无监督学习
C:强化学习

基于分类对象的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式

话题可以从数据中直接观察到。()
A:对
B:错

kNN算法中,选择较小的k值“学习”的估计误差会减小。()
A:对
B:错

效用矩阵的数据可以通过隐式方法获得,得到的数值中0相比较1表示受喜欢度较低
A:对
B:错

云计算出现后,数据存储服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本。
A:对
B:错

切比雪夫距离计算是取哥哥坐标数值的绝对值的最大值。()
A:对
B:错

支持向量机仅能对线性数据进行分类。()
A:对
B:错

组内平均链锁距离进一步考虑了组内相似性的变化。
A:对
B:错

中位数的优势是计算简便,不受极端值的影响
A:对
B:错

潜在狄利克雷分配假设,文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。
A:对
B:错

聚类分析中,一个类是样本的一个子集。
A:对
B:错

实际操作中,不能用经验风险近似期望风险
A:对
B:错

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
A:对
B:错

Kmeans算法的MapReduce实现属于迭代算法。()
A:对
B:错

Apriori算法的优点是速度快。()
A:对
B:错

IDC给出的大数据定义是大数据(Big Data)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
A:对
B:错

每个网页的PageRank值仅由指向它的网页的PageRank值决定。()
A:对
B:错

类的均值,又称为类的中心。()
A:对
B:错

朴素贝叶斯法将实例分到后验概率最大的类。()
A:对
B:错

Q型聚类主要采取基于距离的相似性度量。
()
A:对
B:错

推荐与用户喜欢的演员、导演相同或流派相似的电影,是一种基于内容的推荐算法
A:对
B:错

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|超前自学网 ( 皖ICP备20014425号-1 )|网站地图

GMT+8, 2025-5-2 10:21

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表