20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《大数据开发技术（二）》在线作业

adminhan · 发表于 2020-10-29 21:42:19

Spark中DataFrame的（）方法是进行排序查询
A:order by
B:group by
C:select by
D:sort by

var a=10;
do{
a =1;
}while(alt;20)
共循环了（）次
A:9
B:10
C:11
D:12

GraphX中（）是存放着Edg对象的RDD
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD

Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles

Dstream窗口操作中（）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow

spark-submit配置项中（）表示Driver程序使用的内存大小
A:--driver-memory MEM
B:--executor-memory MEM
C:--total-executor-cores NUM
D:--executor-coures NUM

PairRDD的（）方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。
A:join
B:union
C:substract
D:intersection

Scala 使用（）关键字来继承一个类
A:extends
B:override
C:extend
D:overrides

GraphX中graph.edges可以得到（）
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图

图结构中如果任意两个顶点之间都存在边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图

Spark中DataFrame的（）方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by

以下哪个函数可以求两个RDD差集（）
A:union
B:substract
C:intersection
D:cartesian

（）是Spark的数据挖掘算法库
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib

Scala列表方法中将函数应用到列表的所有元素的方法是（）
A:filter
B:foreach
C:map
D:mkString

以下哪个函数可以对RDD进行排序（）
A:sortBy
B:filter
C:distinct
D:intersection

GraphX中（）方法可以查询边信息
A:numVertices
B:numEdges
C:vertices
D:edges

Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是（）
A:filter
B:foreach
C:map
D:mkString

Spark中DataFrame的（）方法是进行条件查询
A:where
B:join
C:limit
D:apply

下列Scala代码应输出（）：
var a=0;
var b=0
var sum=0;
for(alt;-1 until 3; blt;-1 until 3) {
sum =a b;
}
println(sum);
A:36
B:35
C:11
D:12

Scala列表方法中返回所有元素，除了最后一个的方法是（）
A:drop
B:head
C:filter
D:init

spark-submit配置项中（）表示启动的executor数量
A:--num-executors NUM
B:--executor-memory MEM
C:--total-executor-cores NUM
D:--executor-coures NUM

图结构中如果任意两个顶点之间都存在有向边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图

在图结构中，每个元素都可以有（）前驱
A:至少一个
B:零个或多个
C:一个
D:零个

Spark Streming中（）函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象
A:map
B:flatMap
C:filter
D:union

（）可以解决图计算问题
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib

MLBase包括（）
A:Mllib
B:MLI
C:SparkR
D:GraphX

MapReudce不适合（）任务
A:大数据计算
B:迭代
C:交互式
D:离线分析

RDD是一个（）的数据结构
A:可读写
B:只读的
C:容错的
D:可进行并行操作的

Spark可以从（）分布式文件系统中读取数据
A:HDFS
B:Hbase
C:Hive
D:Tachyon

以下算法中属于监督学习算法的是（）
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans

以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区（）
A:resetpartition
B:repartiton
C:Partition
D:coalesce

Spark创建DataFrame对象方式有（）
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表

MLlib中用于线性回归算法的包主要有（）
A:LinearRegressionWithSGD
B:RidgeRegressionWithSGD
C:LassoWithSGD
D:LeftRegression

以下哪个方法可以从集合中创建RDD（）
A:parallelize
B:makeRDD
C:textFile
D:loadFile

Mllib实现了一些常见的机器学习算法和应用程序，包括（）
A:分类
B:聚类
C:降维
D:回归

默认情况下，Scala 使用的是可变集合
A:对
B:错

RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。
A:对
B:错

Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
A:对
B:错

RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。
A:对
B:错

RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
A:对
B:错

用户可以在Apache Mesos上运行Spark
A:对
B:错

Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。
A:对
B:错

Scala中创建一个方法时经常用void表示该方法无返回值
A:对
B:错

图（Graph）是一种复杂的非线性结构
A:对
B:错

Scala 集合分为可变的和不可变的集合
A:对
B:错

用户可以在Hadoop YARN上运行Spark
A:对
B:错

Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗
A:对
B:错

Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。
A:对
B:错

RDD是一个可读写的数据结构
A:对
B:错

RDD的sortBy排序默认是升序
A:对
B:错

		自动登录	找回密码
密码			立即注册