|

朴素贝叶斯中,给定输入x,求解在x出现的前提下各个类别出现的概率,哪个最大,就认为x属于哪个类别。即选择()最大的类别。
A:后验概率
B:先验概率
C:极大似然估计
维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
皮尔森相关系数的变化分为是()
A:[0, 1]
B:[-1, 1]
C:[-1, 0]
D:[0.5, 1]
基于MapReduce的Apriori算法,共进行几轮MapReduce()
A:1
B:2
C:3
D:4
向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵
特征空间中两个实例点的()是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离
聚合聚类算法的代表是()
A:AGNES
B:Apriori
C:KNN
D:FP-Growth
数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
以下哪个会降低Apriori算法的挖掘效率( )
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率
Apriori算法使用到以下哪些( )
A:格结构、有向无环图
B:二叉树、哈希树
C:格结构、哈希树
D:多叉树、有向无环图
评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值
闵式距离参数是()时代表曼哈顿距离
A:0
B:1
C:2
D:无穷
聚类过程为()
A:数据准备,特征选择,特征提取,聚类,结果评估
B:数据准备,特征提取,特征选择,聚类,结果评估
C:数据准备,特征提取,聚类,特征选择,结果评估
大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()
A:实时分析
B:弱实时分析
C:非实时分析
模型参数估计变为以()为目标函数的最优化问题
A:交叉熵损失函数
B:合页损失函数
C:对数似然函数
D:KL散度
用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
向量空间的度量,表示文本之间的()。
A:关系
B:相似度
C:语义关系
D:语义相似度
k近邻法中的分类决策规则往往是()
A:依权重表决
B:多数表决
C:前提设定
D:随机决定
基于聚类结构的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式
关联规则用于查找项目集合或对象集合之间的()
A:频繁模式
B:关联
C:相关性
D:因果结构
两个个体之间的距离需满足什么条件()
A:自反性
B:非负性
C:对称性
D:三角形法则
以下什么问题可以归为回归问题()
A:市场趋势预测
B:产品质量管理
C:客户满意度调查
D:投资风险分析
聚类方法包括()
A:划分方法
B:层次方法
C:对象方法
D:基于密度的方法
概率潜在语义分析中,模型生成的是(),但观测到的是()。
A:单词-话题-文本三元组
B:话题-文本二元组
C:单词-话题二元组
D:单词-文本二元组
连续性变量的距离可用以下()方法衡量
A:曼哈顿距离
B:切比雪夫距离
C:.Jaccard相似系数
D:皮尔森相关系数
按主题分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团
统计学习方法的组成
A:监督学习
B:无监督学习
C:强化学习
基于分类对象的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式
话题可以从数据中直接观察到。()
A:对
B:错
kNN算法中,选择较小的k值“学习”的估计误差会减小。()
A:对
B:错
效用矩阵的数据可以通过隐式方法获得,得到的数值中0相比较1表示受喜欢度较低
A:对
B:错
云计算出现后,数据存储服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本。
A:对
B:错
切比雪夫距离计算是取哥哥坐标数值的绝对值的最大值。()
A:对
B:错
支持向量机仅能对线性数据进行分类。()
A:对
B:错
组内平均链锁距离进一步考虑了组内相似性的变化。
A:对
B:错
中位数的优势是计算简便,不受极端值的影响
A:对
B:错
潜在狄利克雷分配假设,文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。
A:对
B:错
聚类分析中,一个类是样本的一个子集。
A:对
B:错
实际操作中,不能用经验风险近似期望风险
A:对
B:错
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
A:对
B:错
Kmeans算法的MapReduce实现属于迭代算法。()
A:对
B:错
Apriori算法的优点是速度快。()
A:对
B:错
IDC给出的大数据定义是大数据(Big Data)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
A:对
B:错
每个网页的PageRank值仅由指向它的网页的PageRank值决定。()
A:对
B:错
类的均值,又称为类的中心。()
A:对
B:错
朴素贝叶斯法将实例分到后验概率最大的类。()
A:对
B:错
Q型聚类主要采取基于距离的相似性度量。
()
A:对
B:错
推荐与用户喜欢的演员、导演相同或流派相似的电影,是一种基于内容的推荐算法
A:对
B:错
|
|