超前自学网

 找回密码
 立即注册

奥鹏在线作业,2元一门,先做后付,微信424329

查看: 66|回复: 0

20春学期(1709、1803、1809、1903、1909、2003)《网络爬虫与信息提取》在线作业

[复制链接]

3万

主题

3万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
95816
发表于 2020-10-30 03:21:10 | 显示全部楼层 |阅读模式
微信公众号:超前自学网
点击这里

浏览器用来记录用户状态信息的数据叫
A:session
B:cookies
C:moonpies
D:selenium

()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A:meta
B:head
C:header
D:body

如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个()
A:列表
B:元组
C:字典
D:集合

下列关于mitmproxy的安装说法错误的是()
A:对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxy
B:在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python 3.5或者更高版本
C:在windows系统中无法使用linux的命令,只能通过下载安装包来安装
D:UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装

()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具
A:Scrapyd
B:ScrapyDeploy
C:Deploy
D:Scrapy_Deploy

PyMongo中逻辑查询表示大于的符号是()
A:$gt
B:$lt
C:$gte$$lte

Python中把列表转换为集合需要使用##函数
A:set
B:list
C:convert
D:change

Redis中往集合中添加数据,使用关键字()
A:sadd
B:add
C:append
D:sappend

下面Python代码输出为():
def default_para_without_trap(para=[], value=0):
    if not para:
        para = []
    para.append(value)
    return para
print('第一步:{}'.format(default_para_trap(value=100)))

print('第二步:{}'.format(default_para_trap(value=50)))
A:第一步:[100]
第二步:[100,50]
B:第一步:[100]
第二步:[50]
C:第一步:[100]
第二步:[]
D:第一步:[100]
第二步:[100]

Python写CSV文件需要哪个方法()
A:CSVWriter
B:CsvWriter
C:DictWriter
D:FileWriter

使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}
A:headers
B:文本内容
C:目标网站
D:user-agent

Python中若定义object=[1, 2, 3, 4, 5],则print(object[:3])输出()
A:12
B:123
C:23
D:234

当需要把Python里面的数据发送给网页时,应先将其转换成()
A:Json字符串
B:GET
C:POST
D:Request

以下表示请求资源找不到的HTTP状态码为
A:200
B:301
C:404
D:500

Redis若要进入交互环境,需要打开终端输入()
A:redis-cli
B:redis
C:redis-cmd
D:redis-start

Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法
A:组件
B:模块
C:控件
D:单元

xpath中extract方法返回值类型是()
A:列表
B:元组
C:字典
D:集合

下列哪项不是HTTP的请求类型()
A:GET
B:POST
C:PUT
D:SET

请问按哪个键可以打开Chrome自带的开发者工具()
A:F10
B:F1
C:F11
D:F12

以下哪个HTML标签表示定义 HTML 表格中的行()
A:lt;ulgt;
B:lt;ligt;
C:lt;trgt;
D:lt;tdgt;

Python中一个函数可以有()个return语句
A:0
B:1
C:多个
D:2

最常见的HTTP请求类型有()
A:GET
B:POST
C:SEND
D:RECEIVE

自动填充验证码的方式有
A:手动识别填写
B:图像识别
C:打码网站
D:浏览器自动识别

下列关于在IOS上配置charles的说法正确的是()
A:不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B:手机和电脑需要在同一个局域网下。
C:HTTP代理可以使用“自动”选项。
D:安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动

Python中()与元组由类似的数据读取方式
A:字符串
B:列表
C:字典
D:集合

Python中有哪些实现多线程方法()
A:multiprocess.dummy
B:threading.Thread
C:process
D:PyMongoDB

要使用tesseract来进行图像识别,需要安装两个第三方库
A:requests
B:beautifulsoup
C:Pillow
D:pytesseract

BS4可以用来从()中提取数据
A:HTML
B:XML
C:数据库
D:JSON

Python中()容器有推导式
A:列表
B:元组
C:字典
D:集合

Redis中的值可以支持()
A:列表
B:哈希
C:集合
D:有序集合

MongoDB在频繁读写方面优于Redis
A:对
B:错

Redis的集合与Python的集合一样,没有顺序,值不重复
A:对
B:错

插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1
A:对
B:错

Python中写CSV文件的writerow方法参数为包含字典的列表类型
A:对
B:错

在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务
src/redis-server
A:对
B:错

Selenium必须加载对应的webdriver才能模拟浏览器访问
A:对
B:错

数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击
A:对
B:错

网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。
A:对
B:错

Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;
A:对
B:错

charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。
A:对
B:错

如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。
A:对
B:错

在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容
A:对
B:错

在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
A:对
B:错

MongoDB是一个关系数据库产品
A:对
B:错

Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。
A:对
B:错

robots.txt是一种规范,在法律范畴内
A:对
B:错

当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
A:对
B:错

process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
A:对
B:错

MongoDB支持对查询到的结果进行排序。排序的方法为sort()。它的格式为:
handler.find().sort('列名', 1或-1或0)
A:对
B:错

当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入"163.com"就可以了
A:对
B:错

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|超前自学网 ( 皖ICP备20014425号-1 )|网站地图

GMT+8, 2025-5-2 22:15

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表