|

支持向量机的MapReduce实现要进行几轮MapReduce()
A:1
B:2
C:3
D:自行规定
Apriori算法的加速过程依赖于以下哪个策略( )
A:抽样
B:剪枝
C:缓冲
D:并行
在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
A:词项作弊
B:链接作弊
决策树中的叶结点表示()
A:特征
B:类
C:属性
D:值域输出
特征空间中两个实例点的()是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离
为了计算中介度,必须计算所有边上()的数目。
A:所有路径
B:最短路径
C:结点入度
D:节点出度
模型参数估计变为以()为目标函数的最优化问题
A:交叉熵损失函数
B:合页损失函数
C:对数似然函数
D:KL散度
向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵
评估模型的分类预测准确率,使用()进行评估;
A:训练数据集
B:验证数据集
C:测试数据集
D:未知数据
HITS算法中,网页的重要性应该依赖于()
A:每个网页上的超链接个数
B:用户提出的查询请求
C:网页上超链接重要性
逻辑斯谛函数是一条()曲线
A:抛物线
B:三角函数
C:S型曲线
D:直线
以下哪种类型的数据不是大数据分析模型的分类标准
A:结构化数据
B:异构数据
C:半结构化数据
D:非结构化数据
非频繁模式( )
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感
朴素贝叶斯中,给定输入x,求解在x出现的前提下各个类别出现的概率,哪个最大,就认为x属于哪个类别。即选择()最大的类别。
A:后验概率
B:先验概率
C:极大似然估计
评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值
聚合聚类算法的代表是()
A:AGNES
B:Apriori
C:KNN
D:FP-Growth
KNN算法用MapReduce实现,要进行几轮MapReduce()
A:1
B:2
C:3
D:4
潜在语义分析中,以()表示文本的语义内容
A:话题
B:话题向量
C:语义向量
D:距离向量
任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作弊
A:访问量
B:实际价值
C:搜索量
D:用户数量
使用了随机函数的算法是哪个算法()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
决策树的生成过程是()
A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B:如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C:构建根结点,将所有训练数据都放在根结点
D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
聚类方法中的划分方法包括()
A:K-均值算法
B:凝聚法
C:分裂法
D:K-中心点算法
大数据在电信中的应用有
A:基于用户、业务及流量分级的多维管控机制
B:精准的客户分析及营销
C:利用位置和轨迹信息服务社会
下列属于朴素贝叶斯优点的是()
A:有稳定的分类效率
B:对小规模的数据表现很好
C:对缺失数据敏感
D:分类决策错误率很低
大数据聚类分析中,归并依据的是()
A:特征的相似度
B:特征的距离
C:特征显著性
D:置信度
决策树中的信息增益等价于()中类与特征的()
A:训练数据
B:测试数据
C:交叉熵
D:互信息
KNN模型由哪些基本要素决定()
A:距离度量
B:特征选择
C:k值的选择
D:分类决策规则
以下什么问题可以归为回归问题()
A:市场趋势预测
B:产品质量管理
C:客户满意度调查
D:投资风险分析
大数据在社交网络中的应用
A:用户偏好、情感、社交网络结构
B:用户画像、精准推荐
C:舆情监控、突发事件预警
D:预测外部趋势
从训练数据中学习一个()或(),将其称为()。
A:概率分类模型
B:分类决策函数
C:回归模型
D:分类器
二元逻辑回归的参数估计中,采用对数似然函数估计
A:对
B:错
推荐系统根据用户的兴趣特点和购买行为,向用户提供建议
A:对
B:错
K-均值算法中每个簇都用该簇中对象的均值表示()
A:对
B:错
大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
均值的不足是易受极端值的影响
A:对
B:错
PageRank算法不考虑不同链接的重要性。()
A:对
B:错
SVM是在特征空间上的间隔最大的线性分类器。()
A:对
B:错
频繁闭项集可用来无损压缩频繁项集。
A:对
B:错
要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
A:对
B:错
Apriori算法采用了逐层搜索的迭代方法。()
A:对
B:错
k-Means算法是一种划分聚类方法()
A:对
B:错
类的均值,又称为类的中心。()
A:对
B:错
k均值聚类是硬聚类。()
A:对
B:错
文本分析是结构大数据分析的一个基本问题。()
A:对
B:错
精确率和召回率都高时, F1值也会高。()
A:对
B:错
潜在语义分析主要用于文本的话题分析.()
A:对
B:错
Apriori算法产生的关联规则总是确定的。
A:对
B:错
关联规则可以用枚举的方法产生。
A:对
B:错
AGNES算法中,簇中相似度由单链接法确定。()
A:对
B:错
FP-growth算法的速度要比Apriori算法快。
A:对
B:错
|
|