Python爬虫基本库request的基本使用

 更新时间:2023年07月07日 10:18:32   作者:milk-request  
这篇文章主要介绍了Python爬虫基本库request的基本使用,urllib库使用繁琐,比如处理网页验证和Cookies时,需要编写Opener和Handler来处理。为了更加方便的实现这些操作,就有了更为强大的requests库,需要的朋友可以参考下

request

用urllib去处理网页验证和Cookies时,需要写Opener和Handler来处理,很不方便,这里我们学习更为强大的库request

get()

实例:

import requests #导入requests
html = requests.get('https://www.csdn.net/')#使用get方法获取页面信息
print(html.text)#调取text属性查看页面代码

添加参数使用param+字典

import requests  # 导入requests
data = {
    'jl': '765',
    'kw': 'python',
    'kt': '3'
}
html = requests.get('https://sou.zhaopin.com/',params=data)  # 添加参数
print(html.text)  # 调取text属性查看页面代码

添加headers使用headers+字典

import requests  # 导入requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
data = {
    'jl': '765',
    'kw': 'python',
    'kt': '3'
}
html = requests.get('https://sou.zhaopin.com/',headers=headers,params=data)  # 添加参数
print(html.text)  # 调取text属性查看页面代码

高级用法

cookies设置,代理设置等

Cookies

获取cookies:

import requests  # 导入requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
data = {
    'jl': '765',
    'kw': 'python',
    'kt': '3'
}
html = requests.get('https://blog.csdn.net/qq_40966461/article/details/104974998',headers=headers,params=data)  # 添加参数
print(html.cookies)  # 调取text属性查看页面代码
for key,value in html.cookies.items():
    print(key+'='+value)

很简单,直接获取cookies属性即可

维持会话Session()

在requests中,如果直接利用get()或post()等方法可以做到模拟网页的请求,但是这实际上时相当于不同的会话,相当于用了两个浏览器打开了不同的页面,这时需要用session对象来维护对话

import requests  # 导入requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
data = {
    'jl': '765',
    'kw': 'python',
    'kt': '3'
}
html = requests.Session().get('https://blog.csdn.net/qq_40966461/article/details/104974998',headers=headers,params=data)  # 添加参数
print(html.cookies)  # 调取text属性查看页面代码
for key,value in html.cookies.items():
    print(key+'='+value)

调用requests模块中get方法时先创建一个Session对象

SSL证书验证

import requests  # 导入requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
response  = requests.get('http://www.12306.cn',headers=headers,verify = False)
print(response.status_code)

verify=False即可

代理设置

import requests  # 导入requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
proxies = {
    "http":"http://183.166.132.176",
    "https":"https://183.166.132.176"
}
response  = requests.get('http://www.12306.cn',headers=headers,proxies=proxies,verify = False)
print(response.status_code)

添加proxies即可,代理可以搜索快代理

超时设置

加参数timeout= 1

身份认证

get中添加参数 auth=(‘username’,‘password’)

OAuth认证方式

到此这篇关于Python爬虫基本库request的基本使用的文章就介绍到这了,更多相关Python爬虫request库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python线程池thread pool创建使用及实例代码分享

    Python线程池thread pool创建使用及实例代码分享

    这篇文章主要介绍了Python线程池(thread pool)创建使用及实例代码分享,文章围绕主题展开详细的内容介绍具有一定的参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • Python  word实现读取及导出代码解析

    Python word实现读取及导出代码解析

    这篇文章主要介绍了Python word实现读取及导出代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • python为什么会环境变量设置不成功

    python为什么会环境变量设置不成功

    在本篇文章里小编给大家分享的是一篇关于python环境变量设置不成功怎么办的解决方法内容,有兴趣的朋友们可以跟着学习下。
    2020-06-06
  • Python神奇的内置函数locals的实例讲解

    Python神奇的内置函数locals的实例讲解

    今天小编就为大家分享一篇关于Python神奇的内置函数locals的实例讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-02-02
  • 使用 NumPy 和 Matplotlib 绘制函数图

    使用 NumPy 和 Matplotlib 绘制函数图

    Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython
    2021-09-09
  • Python+树莓派+YOLO打造一款人工智能照相机

    Python+树莓派+YOLO打造一款人工智能照相机

    今天,我们将自己动手打造出一款基于深度学习的照相机,当小鸟出现在摄像头画面中时,它将能检测到小鸟并自动进行拍照
    2018-01-01
  • Python通过正则库爬取淘宝商品信息代码实例

    Python通过正则库爬取淘宝商品信息代码实例

    这篇文章主要介绍了Python通过正则库爬取淘宝商品信息代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Python queue模块的用法

    Python queue模块的用法

    本文主要介绍了Python queue模块的用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-06-06
  • Python如何建立多个值和单个键的映射

    Python如何建立多个值和单个键的映射

    在Python中,常见的字典只能映射单个键到单个值,若需映射单个键到多值,可以通过将值存储于列表或集合中实现,使用列表可以保持元素插入顺序,而使用集合则可以去重,collections模块的defaultdict类简化了此类多值字典的创建过程
    2024-09-09
  • Pycharm中配置使用Anaconda的虚拟环境进行项目开发的图文教程

    Pycharm中配置使用Anaconda的虚拟环境进行项目开发的图文教程

    今天在一台电脑上跑环境的时候,发现已经装了Pytorch了,但是运行没有用,提示报错:OSError: [WinError 126] 找不到指定的模块,但其实cmd进入虚拟环境是可以调用torch的,故本文给大家介绍了Pycharm中配置使用Anaconda的虚拟环境进行项目开发的图文教程
    2024-09-09

最新评论