python爬取数据中的headers和代理IP问题分析

 更新时间:2023年06月26日 10:16:16   作者:小白学大数据  
这篇文章主要为大家介绍了python爬取数据中的headers和代理IP问题分析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

爬虫主要爬取方式之一 聚焦爬虫

也就是说,爬取某一个特定网站或者具有特定内容的网站,而一般比较大的有价值的网站都会有反爬策略,其中常见的反爬策略是网站根据来访者的身份判定是否予以放行。

对来访者身份的判定一般基于headers里的user-Agent值,每一种浏览器访问网站的user-Agent都是不同的,因此,爬虫需要伪装成浏览器,并且在爬取的过程中自动切换伪装,从而防止网站的封杀。

通过一些爬虫库调用随机返回一个headers(User-Agent)

import requests
ua = UserAgent()        # 实例化,需要联网但是网站不太稳定-可能耗时会长一些
print(ua.random)  # 随机产生
headers = {
    'User-Agent': ua.random    # 伪装
    }
# 请求
if __name__ == '__main__':
    url = 'https://www.baidu.com/'
    response = requests.get(url, headers=headers ,proxies={"http":"117.136.27.43"})
    print(response.status_code)
还有就是访问IP的判别,在进行Python爬虫程序开发时,如果频繁地访问同一网站的情况下,网站服务器可能会把该IP地址列入黑名单,限制其访问权限。此时,使用IP代理技术可以有效避免这种限制,保证爬虫程序的稳定性。使用IP代理技术还有其他的优点,比如增强隐私保护、提高数据访问速度、降低目标网站的压力等等。总之,IP代理技术已经成为了Python爬虫程序中不可或缺的一部分。
Python提供了丰富的第三方库,可以帮助我们实现IP代理功能。其中最常用的是requests库和urllib库。以下是使用requests库实现IP代理的示例代码:
```     #! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"
    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"
    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text

以上就是python爬取数据中的headers和代理IP问题解析的详细内容,更多关于python爬取数据headers代理IP的资料请关注脚本之家其它相关文章!

相关文章

  • Flask sqlalchemy一对多与多对一与一对一及多对多关系介绍

    Flask sqlalchemy一对多与多对一与一对一及多对多关系介绍

    这篇文章主要介绍了Flask sqlalchemy一对多与多对一与一对一及多对多关系介绍,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-09-09
  • django admin组件使用方法详解

    django admin组件使用方法详解

    这篇文章主要介绍了django admin组件使用方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • python中Pexpect的工作流程实例讲解

    python中Pexpect的工作流程实例讲解

    在本篇文章里小编给大家整理的是一篇关于python中Pexpect的工作流程实例讲解内容,有兴趣的朋友们可以学习下。
    2021-03-03
  • python3 最常用的三种装饰器语法汇总

    python3 最常用的三种装饰器语法汇总

    这篇文章主要介绍了python3 最常用的三种装饰器语法总结,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • 使用python3构建文件传输的方法

    使用python3构建文件传输的方法

    今天小编就为大家分享一篇使用python3构建文件传输的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • 踩坑:pytorch中eval模式下结果远差于train模式介绍

    踩坑:pytorch中eval模式下结果远差于train模式介绍

    这篇文章主要介绍了踩坑:pytorch中eval模式下结果远差于train模式介绍,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • python调用c++ ctype list传数组或者返回数组的方法

    python调用c++ ctype list传数组或者返回数组的方法

    今天小编就为大家分享一篇python调用c++ ctype list传数组或者返回数组的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • Python实现备份文件实例

    Python实现备份文件实例

    这篇文章主要介绍了Python实现备份文件的方法,可实现针对各类常见扩展名的文件进行备份的功能,需要的朋友可以参考下
    2014-09-09
  • Python shutil模块文件和目录操作示例详解

    Python shutil模块文件和目录操作示例详解

    本文将会学习到 shutil 模块,包括其主要功能和示例代码,以帮助你更好地理解如何使用它来处理文件和目录
    2023-11-11
  • Python爬取科目四考试题库的方法实现

    Python爬取科目四考试题库的方法实现

    这篇文章主要介绍了Python爬取科目四考试题库的方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03

最新评论