|

在MLlib中,逻辑回归算法的输入值为()类型
A:Double
B:LabledPoint
C:Point
D:SGB
Scala列表方法中获取列表的第一个元素的方法是()
A:drop
B:head
C:filter
D:init
spark-submit配置项中()表示每个executor使用的内核数
A:--num-executors NUM
B:--executor-memory MEM
C:--total-executor-cores NUM
D:--executor-coures NUM
Spark Streming中()函数当被调用的两个DStream分别含有(K, V) 和(K, W)键值对时,返回一个(K, Seq[V], Seq[W])类型的新的DStream。
A:union
B:reduce
C:join
D:cogroup
PairRDD可以通过()获得仅包含键的RDD
A:key
B:keys
C:value
D:values
GraphX中()是完整提供边的各种操作类
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
一般情况下,对于迭代次数较多的应用程序,Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的()多倍
A:2
B:10
C:100
D:1000
MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练分类树
A:trainClassifier
B:trainRegressor
C:LogisticRegressionModel
D:LabeledPoint
Scala中()方法返回Map所有的value
A:key
B:keys
C:value
D:values
Spark Streming中DStream的每个RDD都是由()分割开来的数据集
A:分区
B:一小段时间
C:数据量
D:随机
Dstream窗口操作中()方法基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
Scala列表方法中输出符号指定条件的所有元素的方法是()
A:drop
B:head
C:filter
D:init
以下哪个不是Scala的数据类型()
A:Int
B:Short Int
C:Long
D:Any
当需要将一个普通的RDD转化为一个PairRDD时可以使用()函数来进行操作
A:transfer
B:change
C:map
D:build
Dstream窗口操作中()方法返回一个基于源DStream的窗口批次计算后得到新的DStream。
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
Dstream输出操作中()方法在Driver中打印出DStream中数据的前12个元素。
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是()
A:[0,numPartitions]
B:[0,numPartitions-1]
C:[1,numPartitions-1]
D:[1,numPartitions]
GraphX中graph.edges可以得到()
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图
GraphX中()是存放着存放顶点的RDD
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
Scala中()方法返回一个列表,包含除了第一个元素之外的其他元素
A:head
B:init
C:tail
D:last
请问RDD的()操作把RDD 所有元素转换成数组并返回到Driver 端
A:join
B:zip
C:combineByKey
D:collect
Spark GraphX中类Graph的mapReduceTriplets方法可以()
A:收集邻居顶点的顶点Id和顶点属性
B:收集邻居顶点的顶点Id
C:向指定顶点发送信息并聚合信息
D:将顶点信息更新到图中
Scala列表方法中通过给定的方法将所有元素重新计算的方法是()
A:filter
B:foreach
C:map
D:mkString
Scala列表方法中返回所有元素,除了最后一个的方法是()
A:drop
B:head
C:filter
D:init
Scala中可以用()方法来连接两个或多个列表
A:::
B:#:::
C:List.:::()
D:List.concat()
Spark DataFrame中()方法可以返回一个Array对象
A:collect
B:take
C:takeAsList
D:collectAsList
Scala系统支持()作为对象成员
A:通用类
B:内部类
C:抽象类
D:复合类
Mllib实现了一些常见的机器学习算法和应用程序,包括()
A:分类
B:聚类
C:降维
D:回归
Spark Streaming能够和()无缝集成
A:Hadoop
B:Spark SQL
C:Mllib
D:GraphX
以下算法中属于分类算法的是()
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans
Spark Core包含的功能有()
A:任务调度
B:内存管理
C:SQL查询
D:容错机制
Scala中构造列表的两个基本单位是 ()
A:Nil
B:Nill
C:::
D:List
Spark DataFrame中()方法可以返回一个List
A:collect
B:take
C:takeAsList
D:collectAsList
MLlib中用于线性回归算法的包主要有()
A:LinearRegressionWithSGD
B:RidgeRegressionWithSGD
C:LassoWithSGD
D:LeftRegression
RDD的map操作不会改变RDD的分区数目
A:对
B:错
MLlib中StandardScaler处理的对象是每一列,也就是每一维特征,将特征标准化为单位标准差或是0均值,或是0均值单位标准差。
A:对
B:错
Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
A:对
B:错
Spark SQL仅仅包括基本的SQL语法
A:对
B:错
聚类是一种无监督学习的方法,用于将高度相似的数据分到一类中
A:对
B:错
MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
A:对
B:错
Spark GraphX课通过mapVertices[VD2: ClassTag](map: (VertexId, VD) =gt; VD2)实现对顶点属性经过变换生成新的图
A:对
B:错
Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作
A:对
B:错
Scala中默认情况下使用的是可变的Map
A:对
B:错
mllib.feature中存在一些常见的特征转化方法,主要包括创建特征向量和标准化数据
A:对
B:错
Scala中允许集成多个父类
A:对
B:错
RDD中combineByKey不允许返回类型与输入数据类型不同的返回值
A:对
B:错
Spark SQL可被视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型
A:对
B:错
Spark GraphX课通过mapTriplets[ED2: ClassTag](map: EdgeTriplet[VD, ED] =gt; ED2)
实现对边属性经过变换生成新的图
A:对
B:错
Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括函数式编程的特性。
A:对
B:错
|
|