20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《大数据开发技术（二）》在线作业

adminhan · 发表于 2020-10-29 21:43:32

（）可以解决图计算问题
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib

图结构中如果无重复的边或者顶点到自身的边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图

（）是Spark的核心，提供底层框架及核心支持
A:Spark Core
B:Spark SQL
C:Spark Streaming
D:Mllib

递归函数意味着函数可以调用它（）
A:其他函数
B:主函数
C:子函数
D:自身

请问RDD的（）操作是根据键对两个RDD进行内连接
A:join
B:zip
C:combineByKey
D:collect

Dstream窗口操作中（）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow

Spark Streming中（）函数当被调用类型分别为（K，V）和（K，W）键值对的2个DStream 时，返回类型为（K，（V，W））键值对的一个新 DStream。
A:union
B:reduce
C:join
D:cogroup

Spark Streming中（）函数可以对源DStream的每个元素通过函数func返回一个新的DStream
A:map
B:flatMap
C:filter
D:union

请问RDD的（）操作用于将相同键的数据聚合
A:join
B:zip
C:combineByKey
D:collect

RDD的（）操作通常用来划分单词
A:filter
B:union
C:flatmap
D:mapPartitions

Scala通过（）来定义变量
A:val
B:val
C:define
D:def

下列Scala代码应输出（）：
var a=0;
var b=0
var sum=0;
for(alt;-1 until 3; blt;-1 until 3) {
sum =a b;
}
println(sum);
A:36
B:35
C:11
D:12

MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练回归树
A:trainClassifier
B:trainRegressor
C:LogisticRegressionModel
D:LabeledPoint

以下哪个不是Scala的数据类型（）
A:AnyRef
B:Anything
C:NULL
D:Nothing

Spark GraphX中类Graph的reverse方法可以（）
A:反转图中所有边的方向
B:按照设定条件取出子图
C:取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D:合并边相同的属性

图结构中如果任意两个顶点之间都存在边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图

Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)

spark-submit配置项中（）表示启动的executor数量
A:--num-executors NUM
B:--executor-memory MEM
C:--total-executor-cores NUM
D:--executor-coures NUM

以下算法中属于无监督学习算法的是（）
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans

Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是（）
A:filter
B:flatten
C:grouby
D:flatmap

以下哪个函数可以求两个RDD差集（）
A:union
B:substract
C:intersection
D:cartesian

Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）
A:filter
B:foreach
C:map
D:mkString

Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)

以下哪个函数可以求两个RDD交集（）
A:union
B:substract
C:intersection
D:cartesian

（）是Spark的数据挖掘算法库
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib

Scala中使用（）方法来查看两个集合的交集元素
A:Set.concat
B:Set.
C:Set.
D:Set.intersect

以下哪个方法可以从集合中创建RDD（）
A:parallelize
B:makeRDD
C:textFile
D:loadFile

以下是机器学习的常用算法的是（）
A:回归算法
B:聚类算法
C:降维算法
D:分类算法

Mllib实现了一些常见的机器学习算法和应用程序，包括（）
A:分类
B:聚类
C:降维
D:回归

Spark是一个（）计算框架
A:快速
B:分布式
C:可扩展
D:容错

MapReudce不适合（）任务
A:大数据计算
B:迭代
C:交互式
D:离线分析

Spark创建DataFrame对象方式有（）
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表

Spark的RDD持久化操作有()方式
A:cache
B:presist
C:storage
D:long

以下哪个是Scala的数据类型（）
A:Any
B:NULL
C:Nothing
D:AnyRef

Spark中DataFrame的（）方法是查询指定字段的数据信息
A:select
B:selectExpr
C:col
D:apply

RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
A:对
B:错

RDD的map操作不会改变RDD的分区数目
A:对
B:错

RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。
A:对
B:错

Scala是一种纯面向对象的语言，每个值都是对象。
A:对
B:错

MLlib中Normalizer是一个转换器，它可以将多行向量输入转化为统一的形式。
A:对
B:错

PairRDD中mapValues是针对键值对（Key，Value）类型的数据中的key和Value进行Map操作
A:对
B:错

RDD的filter过滤会将返回值为true的过滤掉
A:对
B:错

Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。
A:对
B:错

Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素
A:对
B:错

Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值
A:对
B:错

Scala在子类中重写超类的抽象方法时，需要使用override关键字
A:对
B:错

RDD是一个可读写的数据结构
A:对
B:错

Scala中创建一个方法时经常用void表示该方法无返回值
A:对
B:错

RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。
A:对
B:错

Spark Streming中Dstream是一种抽象的离散流
A:对
B:错

		自动登录	找回密码
密码			立即注册