|

Spark中DataFrame的()方法是进行排序查询
A:order by
B:group by
C:select by
D:sort by
var a=10;
do{
a =1;
}while(alt;20)
共循环了()次
A:9
B:10
C:11
D:12
GraphX中()是存放着Edg对象的RDD
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
spark-submit配置项中()表示Driver程序使用的内存大小
A:--driver-memory MEM
B:--executor-memory MEM
C:--total-executor-cores NUM
D:--executor-coures NUM
PairRDD的()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。
A:join
B:union
C:substract
D:intersection
Scala 使用 () 关键字来继承一个类
A:extends
B:override
C:extend
D:overrides
GraphX中graph.edges可以得到()
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图
图结构中如果任意两个顶点之间都存在边,那么称之为()
A:完全图
B:有向完全图
C:无向图
D:简单图
Spark中DataFrame的()方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by
以下哪个函数可以求两个RDD差集 ()
A:union
B:substract
C:intersection
D:cartesian
()是Spark的数据挖掘算法库
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib
Scala列表方法中将函数应用到列表的所有元素的方法是()
A:filter
B:foreach
C:map
D:mkString
以下哪个函数可以对RDD进行排序()
A:sortBy
B:filter
C:distinct
D:intersection
GraphX中()方法可以查询边信息
A:numVertices
B:numEdges
C:vertices
D:edges
Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是()
A:filter
B:foreach
C:map
D:mkString
Spark中DataFrame的()方法是进行条件查询
A:where
B:join
C:limit
D:apply
下列Scala代码应输出():
var a=0;
var b=0
var sum=0;
for(alt;-1 until 3; blt;-1 until 3) {
sum =a b;
}
println(sum);
A:36
B:35
C:11
D:12
Scala列表方法中返回所有元素,除了最后一个的方法是()
A:drop
B:head
C:filter
D:init
spark-submit配置项中()表示启动的executor数量
A:--num-executors NUM
B:--executor-memory MEM
C:--total-executor-cores NUM
D:--executor-coures NUM
图结构中如果任意两个顶点之间都存在有向边,那么称之为()
A:完全图
B:有向完全图
C:无向图
D:简单图
在图结构中,每个元素都可以有()前驱
A:至少一个
B:零个或多个
C:一个
D:零个
Spark Streming中()函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象
A:map
B:flatMap
C:filter
D:union
()可以解决图计算问题
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib
MLBase包括()
A:Mllib
B:MLI
C:SparkR
D:GraphX
MapReudce不适合()任务
A:大数据计算
B:迭代
C:交互式
D:离线分析
RDD是一个()的数据结构
A:可读写
B:只读的
C:容错的
D:可进行并行操作的
Spark可以从()分布式文件系统中读取数据
A:HDFS
B:Hbase
C:Hive
D:Tachyon
以下算法中属于监督学习算法的是()
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans
以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()
A:resetpartition
B:repartiton
C:Partition
D:coalesce
Spark创建DataFrame对象方式有()
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表
MLlib中用于线性回归算法的包主要有()
A:LinearRegressionWithSGD
B:RidgeRegressionWithSGD
C:LassoWithSGD
D:LeftRegression
以下哪个方法可以从集合中创建RDD()
A:parallelize
B:makeRDD
C:textFile
D:loadFile
Mllib实现了一些常见的机器学习算法和应用程序,包括()
A:分类
B:聚类
C:降维
D:回归
默认情况下,Scala 使用的是可变集合
A:对
B:错
RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。
A:对
B:错
Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
A:对
B:错
RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
A:对
B:错
RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
A:对
B:错
用户可以在Apache Mesos上运行Spark
A:对
B:错
Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。
A:对
B:错
Scala中创建一个方法时经常用void表示该方法无返回值
A:对
B:错
图(Graph)是一种复杂的非线性结构
A:对
B:错
Scala 集合分为可变的和不可变的集合
A:对
B:错
用户可以在Hadoop YARN上运行Spark
A:对
B:错
Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗
A:对
B:错
Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。
A:对
B:错
RDD是一个可读写的数据结构
A:对
B:错
RDD的sortBy排序默认是升序
A:对
B:错
|
|