搜索
简帛阁>技术文章>爬虫第一步:获取数据

爬虫第一步:获取数据

requests对象

在python中,可通过requests库来获取数据。

1.安装requests库

windows系统:在cmd命令窗口中输入:pip install requests
mac系统:在terminal终端软件中输入:pip3 install requests

2.使用requests.get()方法获取资源

requests.get()用法如下:

#引入requests库
import requests

#1.使用requests.get()方法获取资源
#2.将获取到的资源赋值给 an 变量
an = requests.get('www.4399.com')

#打印 an 变量的数据类型,查看通过requests.get()获取的资源是什么类型
print(type(an))

上述代码执行后,会发现 an 变量属于

3.Response对象常用属性

3.1常用属性

属性作用
response.status_code返回响应状态码用于检查连接是否成功
response.content将response对象转化为二进制数据
response.text将response对象转化为字符串数据
response.encoding定义response对象的编码

3.2常用响应码

格式说明意思
1XX收到请求继续提出请求
2XX请求成功访问成功
3XX重定向应使用代理访问
4XX客户端错误禁止访问
5XX服务段错误服务不可用
requests对象在python中,可通过requests库来获取数据。1安装requests库windows系统:在cmd命令窗口中输入:pipinstallrequestsmac系统:在term
爬虫的工作分为四步:1获取数据爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。2解析数据爬虫程序会把服务器返回的数据解析成我们能读懂的格式。3提取数据爬虫程序再从中提取出我们需要
在我们进行卫生大扫除的时候,因为工作任务较多,所以我们会进行分工,每个人负责不同的打扫项目。同样分工合作的理念,在python分布式爬虫中也得到了应用。我们需要给不同的爬虫分配指令,让它们去分头行动获
文实例为大家分享了nodeJs爬虫获取数据代码,供大家参考,具体内容如下varhttprequire('http');varcheeriorequire('cheerio');//页面获取到的数据
今天在学习爬虫的时候想着学习一下利用jsoup模拟登录。下面分为有验证码和无验证码的情况进行讨论。无验证码的情况1我们正常利用网页进行登录,利用浏览器自带的开发者工具查看一些登录信息我们登录的时候需要
最近采集数据遇到一个accessToken类似微信中公众号的全局唯一接口调用凭据access_token,公众号调用各接口时都需使用access_token。但是这个可不友好,该数据是存放在loca
目录目标站点分析编码时间前言:本例开始学习PyQuery解析框架,该解析对从前端转Python的朋友非常友好,因为它模拟的是JQuery操作。正式开始前,先安装pyquery到本地开发环境中。命令如下
一、写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验。所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。以下文章来源于IT共享之家,作者IT共享者前言小米应用商店给用户发现最好的安卓应用和游戏,安全可靠,
第一步:indexphp//includeYiibootstrapfilerequire_once(dirname(__FILE__)'///framework/yiiphp');defined('