python爬取数据中的headers和代理IP问题分析

 更新时间:2023年06月26日 10:16:16   作者:小白学大数据  
这篇文章主要为大家介绍了python爬取数据中的headers和代理IP问题分析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

爬虫主要爬取方式之一 聚焦爬虫

也就是说,爬取某一个特定网站或者具有特定内容的网站,而一般比较大的有价值的网站都会有反爬策略,其中常见的反爬策略是网站根据来访者的身份判定是否予以放行。

对来访者身份的判定一般基于headers里的user-Agent值,每一种浏览器访问网站的user-Agent都是不同的,因此,爬虫需要伪装成浏览器,并且在爬取的过程中自动切换伪装,从而防止网站的封杀。

通过一些爬虫库调用随机返回一个headers(User-Agent)

import requests
ua = UserAgent()        # 实例化,需要联网但是网站不太稳定-可能耗时会长一些
print(ua.random)  # 随机产生
headers = {
    'User-Agent': ua.random    # 伪装
    }
# 请求
if __name__ == '__main__':
    url = 'https://www.baidu.com/'
    response = requests.get(url, headers=headers ,proxies={"http":"117.136.27.43"})
    print(response.status_code)
还有就是访问IP的判别,在进行Python爬虫程序开发时,如果频繁地访问同一网站的情况下,网站服务器可能会把该IP地址列入黑名单,限制其访问权限。此时,使用IP代理技术可以有效避免这种限制,保证爬虫程序的稳定性。使用IP代理技术还有其他的优点,比如增强隐私保护、提高数据访问速度、降低目标网站的压力等等。总之,IP代理技术已经成为了Python爬虫程序中不可或缺的一部分。
Python提供了丰富的第三方库,可以帮助我们实现IP代理功能。其中最常用的是requests库和urllib库。以下是使用requests库实现IP代理的示例代码:
```     #! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"
    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"
    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text

以上就是python爬取数据中的headers和代理IP问题解析的详细内容,更多关于python爬取数据headers代理IP的资料请关注脚本之家其它相关文章!

相关文章

  • Biblibili视频投稿接口分析并以Python实现自动投稿功能

    Biblibili视频投稿接口分析并以Python实现自动投稿功能

    这篇文章主要介绍了Biblibili视频投稿接口分析并以Python实现自动投稿功能,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • 浅谈Python基础之I/O模型

    浅谈Python基础之I/O模型

    下面小编就为大家带来一篇浅谈Python基础之I/O模型。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-05-05
  • python numpy创造图像矩阵示例详解

    python numpy创造图像矩阵示例详解

    这篇文章主要为大家介绍了python numpy创造图像矩阵示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-08-08
  • 详解如何利用Python制作24点小游戏

    详解如何利用Python制作24点小游戏

    这篇文章主要为大家详细介绍了如何通过Python制作24点小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • Python抢购脚本的编写方法

    Python抢购脚本的编写方法

    本文给大家分享一个秒杀抢购脚本,帮助大家双十二抢购心爱的礼物,步骤很简单,下面小编给大家分享基于Python抢购脚本的编写方法,感兴趣的朋友一起看看吧
    2021-11-11
  • 使用Python读取Excel数据并写入到CSV、XML和文本

    使用Python读取Excel数据并写入到CSV、XML和文本

    Excel工作簿是常用的表格格式,许多数据呈现、数据分析和数据汇报都是以Excel工作表的形式进行,本文将演示如何运用Python编程语言,将Excel工作表中的丰富数据导入到CSV、XML或文本中,需要的朋友可以参考下
    2024-03-03
  • django框架两个使用模板实例

    django框架两个使用模板实例

    这篇文章主要介绍了django框架使用模板方法,结合两个具体实例形式详细分析了Django框架模板的相关使用技巧与操作注意事项,需要的朋友可以参考下
    2019-12-12
  • python实现简单的贪吃蛇游戏

    python实现简单的贪吃蛇游戏

    这篇文章主要为大家详细介绍了python实现简单的贪吃蛇游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • 详解pyqt5的UI中嵌入matplotlib图形并实时刷新(挖坑和填坑)

    详解pyqt5的UI中嵌入matplotlib图形并实时刷新(挖坑和填坑)

    这篇文章主要介绍了详解pyqt5的UI中嵌入matplotlib图形并实时刷新(挖坑和填坑),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • python发送arp欺骗攻击代码分析

    python发送arp欺骗攻击代码分析

    这篇文章主要介绍了python发送arp欺骗攻击的方法,大家碰到这样的事情可以预防一下
    2014-01-01

最新评论