|

OpenMP程序和Pthread程序中线程获得自身编号的方式分别是____。
A:两者均为创建线程时传递参数
B:两者均通过特定API
C:前者创建线程时传递参数,后者通过特定API
D:前者通过特定API,后者创建线程时传递参数
SSE intrinsics _mm_store_pd命令的功能是____。
A:对齐向量存单精度浮点数
B:未对齐标量存单精度浮点数
C:对齐向量存双精度浮点数
D:未对齐标量存双精度浮点数
采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加___前缀。
A:__global__
B:__device___
C:__shared__
D:__private__
对于并行程序设计,下面说法错误的是____。
A:天然具有复杂性
B:算法移植困难
C:软件开发标准环境发展相对之后
D:不应发展这个方向
OpenMP编译指示中说明私有变量是用____子句。
A:private
B:shared
C:schedule
D:nowait
一个SSE寄存器可容纳____个短整型数。
A:2
B:4
C:8
D:16
造成超线性加速比的你原因包括____。
A:进程间大量通信
B:并行算法导致额外计算
C:并行计算工作量显著小于串行计算
D:问题求解包含不可并行化部分
对天气预报问题,将大气层划分为5*10^8个网格单元,每个时间步每个网格需200个浮点运算,时间间隔设置为10分钟,计算10天内大气运动,100MFlops计算能力的计算机需要多少天?
A:1
B:10
C:100
D:300
在条件不成立时,使用pthread_cond_wait____。
A:令线程阻塞
B:解锁互斥量
C:解锁互斥量然后令线程阻塞
D:加锁互斥量
OpenMP是___架构下的一种编程工具。
A:SIMD
B:MISD
C:共享内存
D:分布式内存
对两个互斥量a、b,线程1执行lock(a); lock(b);,线程2执行lock(b); lock(a),则两个线程间会发生____。
A:竞争条件
B:数据依赖
C:资源泄漏
D:死锁
伸缩性的含义不包括____。
A:硬件能升级扩展
B:扩大系统规模构造成本增长不快
C:程序在新硬件下仍能高效运行
D:程序在更大规模系统下仍能高效运行
为利用cache空间局部性,需满足____。
A:cache空间足够大
B:cache line足够大
C:程序访问的数据量足够小
D:程序访存模式符合空间局部性特点
主线程要求从线程退出应采用____。
A:pthread_create
B:pthread_exit
C:pthread_quit
D:pthread_cancel
在使用信号量之前必须对其进行____。
A:初始化
B:加锁
C:加1
D:销毁
1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X[0]*1.3;G=X[1]*1.8;B=X[2]*1.1; 这两个程序片段哪个进行向量化效率更高?
A:1)
B:2)
C:不确定
D:以上皆错
编写矩阵乘法的SSE程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
A:2
B:4
C:8
D:16
编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
A:2
B:4
C:8
D:16
以下哪条不是推动并行计算发展的因素?
A:存储是系统瓶颈
B:单CPU发展已能满足应用需求
C:利用标准硬件构造并行机令升级容易
D:编程环境标准化逐步发展
为了充分利用CPU内的多条流水线,程序应满足____。
A:相邻指令无依赖性
B:相邻指令相互依赖
C:整段程序中指令无依赖性
D:整段程序中指令相互依赖
四位助教帮助教授批改300份试卷,试卷共16道题,每位助教负责批改所有试卷的4道题,这是一种____任务划分方法。
A:数据并行
B:任务并行
C:搜索并行
D:预测并行
实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是____。
A:omp parallel
B:omp barrier
C:omp critical
D:omp reduce
CUDA的优点不包括____。
A:可移植性
B:入门简单
C:标准的SPMD模式
D:不再需要图形API
在下列应用中,SIMD最不适合____。
A:图像处理
B:音频处理
C:科学计算
D:数据库查询
在使用互斥量之后必须对其进行____。
A:初始化
B:加锁
C:解锁
D:销毁
传统科学和工程实验相对于计算机并行仿真的劣势不包括____。
A:成本太高
B:结果不准确
C:时间太长
D:太危险
在SSE intrinsics程序中双精度浮点数数据类型是____。
A:__m128
B:__m128f
C:__m128d
D:__m128i
单精度浮点数矩阵乘法进行AVX并行,期望的加速比为____.
A:等于8
B:小于8
C:4到8之间
D:等于4
MPI不包括的通信类别是____。
A:点对点通信
B:数据传输组通信
C:计算和数据传输组通信
D:加锁解锁通信
多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum =x,对此,下面说法正确的是
A:读取x存在数据依赖,不能并发进行
B:累加顺序被改变,结果是错误的
C:加法操作是简单运算,无需同步
D:加法操作不是原子操作,需要同步保证数据依赖
当处理器数量不变时,随着问题规模增大,加速比____。
A:所有算法都增大
B:所有算法都减小
C:代价最优算法都增大
D:代价最优算法都减小
两个n*n的矩阵相乘,将所有n^2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分____的数据并行。
A:输入数据
B:中间结果
C:输出数据
D:临时数据
下面哪个问题相对而言更不适合进行数据并行____。
A:求和
B:排序
C:向量加法
D:矩阵乘法
对矩阵乘法进行多线程并行化,对矩阵采用____。
A:简单均匀块划分即可保证负载均衡
B:循环划分才能实现负载均衡
C:动态划分才能实现负载均衡
D:随机划分才能实现负载均衡
从线程检查主线程是否要求它退出应采用____。
A:pthread_join
B:pthread_cancel
C:pthread_testcancel
D:pthread_exit
OpenMP不会自动地在____位置设置barrier。
A:并行结构开始
B:并行结构结束
C:其他控制结构开始
D:其他控制结构结束
每个MMX寄存器宽度为____位。
A:32
B:64
C:128
D:256
超级计算机制造越来越关注的一个新的指标是____。
A:计算能力
B:存储能力
C:占地面积
D:功耗
现代CPU中都具有指令乱序执行功能,其目的不包括____。
A:消除指令依赖,更充分利用多流水线
B:提高cache效率
C:改变计算结果
D:消除资源冲突
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的___操作才能得到结果矩阵的一个元素。
A:排列
B:交换
C:广播
D:归约
OpenMP并行模型是一种____模式。
A:SISD
B:SIMD
C:MISD
D:SPMD
SIMD架构未见于_____中。
A:多媒体扩展
B:图形和游戏处理器
C:计算机集群
D:协处理器
SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高),则执行C=shuffle(A, A, 0x1B)后,C中元素为
A:A1 A2 A3 A4
B:A2 A1 A4 A3
C:A3 A4 A1 A2
D:A4 A3 A2 A1
记并行时间为T,串行时间为T',处理器数量为p,并行效率E的定义是____。
A:T'-T
B:T'/T
C:T'/pT
D:pT-T'
SSE指令移动单精度浮点数,不能实现____。
A:将64位数据移动到SSE寄存器高位
B:将64位数据移动到SSE寄存器低位
C:将32位数据移动到SSE寄存器指定位置
D:在两个SSE寄存器高/低64位间移动
一个AVX寄存器最多存放____个单精度浮点数。
A:2
B:4
C:8
D:16
动态任务划分相对于静态任务划分的缺点是____。
A:可能导致负载不均
B:通信开销高
C:任务粒度粗
D:计算复杂度高
关于障碍机制,下面说法错误的是____。
A:会导致快速线程阻塞,不应使用
B:在需要强制线程步调一致时,应使用
C:可用互斥量机制实现
D:属于一种组通信
大型医院每天的X光片、CT等医学图像的分析需要____。
A:串行计算即可
B:高吞吐率计算
C:高性能计算
D:以上皆错
关于MPI是什么,以下说法错误的是____。
A:一种消息传递编程模型标准
B:一种共享内存编程模型标准
C:编程角度看是C /Fortran等的库
D:基于SPMD模型
|
|