超前自学网

 找回密码
 立即注册

奥鹏在线作业,2元一门,先做后付,微信424329

查看: 49|回复: 0

20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业

[复制链接]

3万

主题

3万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
95816
发表于 2020-10-29 21:44:45 | 显示全部楼层 |阅读模式
微信公众号:超前自学网
点击这里

()是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上
A:SparkR
B:BlinkDB
C:GraphX
D:Mllib

图的结构通常表示为:G(V,E),其中,V是图G中()
A:顶点
B:顶点的集合
C:边
D:边的集合

Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles

()是Spark的核心,提供底层框架及核心支持
A:Spark Core
B:Spark SQL
C:Spark Streaming
D:Mllib

Spark中的每个RDD一般情况下是由()个分区组成的
A:0
B:1
C:多
D:无数

RDD的()操作通常用来划分单词
A:filter
B:union
C:flatmap
D:mapPartitions

图结构中如果任意两个顶点之间都存在边,那么称之为()
A:完全图
B:有向完全图
C:无向图
D:简单图

Spark GraphX中类Graph的aggregateMessages方法可以()
A:收集邻居顶点的顶点Id和顶点属性
B:收集邻居顶点的顶点Id
C:向指定顶点发送信息并聚合信息
D:将顶点信息更新到图中

Spark中DataFrame的()方法是进行连接查询
A:where
B:join
C:limit
D:apply

以下哪个不是Scala的数据类型()
A:AnyRef
B:Anything
C:NULL
D:Nothing

GraphX中()方法可以释放边缓存
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist

()是Spark的数据挖掘算法库
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib

在图结构中,每个元素都可以有()后继
A:至少一个
B:零个或多个
C:一个
D:零个

以下哪个方法可以从外部存储中创建RDD()
A:parallelize
B:makeRDD
C:textFile
D:loadFile

Graph类中如果要根据分开存放的顶点数据和边数据创建图,应该用()方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)

Spark GraphX中类Graph的joinVertices方法可以()
A:收集邻居顶点的顶点Id和顶点属性
B:收集邻居顶点的顶点Id
C:向指定顶点发送信息并聚合信息
D:将顶点信息更新到图中

Scala列表方法中返回所有元素,除了最后一个的方法是()
A:drop
B:head
C:filter
D:init

以下哪个函数可以对RDD进行排序()
A:sortBy
B:filter
C:distinct
D:intersection

递归函数意味着函数可以调用它()
A:其他函数
B:主函数
C:子函数
D:自身

Spark Streming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。
A:transform
B:reduce
C:join
D:cogroup

如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是()
A:[0,numPartitions]
B:[0,numPartitions-1]
C:[1,numPartitions-1]
D:[1,numPartitions]

图结构中如果任意两个顶点之间都存在有向边,那么称之为()
A:完全图
B:有向完全图
C:无向图
D:简单图

GraphX中VertexRDD[VD]继承自()
A:EdgeRDD
B:RDD[Edge]
C:VertexRDD[VD]
D:RDD[(VertexId,VD)]

Scala列表方法中通过给定的方法将所有元素重新计算的方法是()
A:filter
B:foreach
C:map
D:mkString

图结构中如果无重复的边或者顶点到自身的边,那么称之为()
A:完全图
B:有向完全图
C:无向图
D:简单图

以下哪个方法可以从集合中创建RDD()
A:parallelize
B:makeRDD
C:textFile
D:loadFile

Scala支持()
A:匿名函数
B:高阶函数
C:函数嵌套
D:柯里化

MapReudce不适合()任务
A:大数据计算
B:迭代
C:交互式
D:离线分析

Spark DataFrame中()方法可以获取若干行数据
A:first
B:head
C:take
D:collect

MLBase包括()
A:Mllib
B:MLI
C:SparkR
D:GraphX

Spark中的RDD的说法正确的是()
A:弹性分布式数据集
B:是Spark中最基本的数据抽象
C:代表一个可变的集合
D:代表的集合里面的元素可并行计算

Spark Streaming能够处理来自()的数据
A:Kafka
B:Flume
C:Twitter
D:ZeroMQ

Spark DataFrame中()方法可以获取所有数据
A:collect
B:take
C:takeAsList
D:collectAsList

Scala中使用() 方法来连接两个集合
A:append
B:  
C:concat
D:Set.  ()

Spark Streaming支持实时流式数据,包括()
A:Web服务器日志文件
B:社交网络数据
C:实时交易数据
D:类似Kafka的信息数据

Spark Streming中DStream代表着一系列的持续的RDDs
A:对
B:错

RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
A:对
B:错

MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。
A:对
B:错

MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
A:对
B:错

RDD的filter过滤会将返回值为true的过滤掉
A:对
B:错

用户可以在Hadoop YARN上运行Spark
A:对
B:错

Scala中创建一个方法时经常用void表示该方法无返回值
A:对
B:错

Scala Set(集合)是没有重复的对象集合,所有的元素都是唯一的
A:对
B:错

PairRDD中reduceByKey的功能是合并具有相同键的值,作用域是KeyValue 类型的键值对,并且是只对每个Key 的Value 进行处理
A:对
B:错

RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。
A:对
B:错

RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
A:对
B:错

Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD 实例。
A:对
B:错

Spark在同一个应用中不能同时使用Spark SQL和Mllib
A:对
B:错

Scala中允许集成多个父类
A:对
B:错

Dstream提供了sort方法
A:对
B:错

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|超前自学网 ( 皖ICP备20014425号-1 )|网站地图

GMT+8, 2025-5-6 09:08

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表