python网络爬虫之如何伪装逃过反爬虫程序的方法

 更新时间:2017年11月23日 09:15:03   作者:Master HaKu  
本篇文章主要介绍了python网络爬虫之如何伪装逃过反爬虫程序的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python通过cmd创建虚拟环境的实现(pip方式)

    python通过cmd创建虚拟环境的实现(pip方式)

    Python的虚拟环境是正常的现实环境相对应的,在虚拟环境中安装的包是与现实环境隔离的,本文主要介绍了python通过cmd创建虚拟环境的实现,感兴趣的可以了解一下
    2023-11-11
  • Pycharm远程调试原理及具体配置详解

    Pycharm远程调试原理及具体配置详解

    这篇文章主要介绍了Pycharm远程调试原理及具体配置详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • pandas 实现某一列分组,其他列合并成list

    pandas 实现某一列分组,其他列合并成list

    这篇文章主要介绍了pandas 实现某一列分组,其他列合并成list的案例。具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • 解决Python找不到ssl模块问题 No module named _ssl的方法

    解决Python找不到ssl模块问题 No module named _ssl的方法

    这篇文章主要介绍了解决Python找不到ssl模块问题 No module named _ssl的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-04-04
  • 利用Python实现自动生成数据日报

    利用Python实现自动生成数据日报

    日报,是大部分打工人绕不过的难题。对于管理者来说,日报是事前管理的最好抓手,可以了解团队的氛围和状态。本文将利用Python实现自动生成数据日报,感兴趣的可以动手尝试一下
    2022-07-07
  • pyqt5 使用label控件实时显示时间的实例

    pyqt5 使用label控件实时显示时间的实例

    今天小编就为大家分享一篇pyqt5 使用label控件实时显示时间的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python使用正则表达式实现爬虫数据抽取

    Python使用正则表达式实现爬虫数据抽取

    这篇文章主要介绍了Python使用正则表达式实现爬虫数据抽取,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Python实用小知识之对象间的比较

    Python实用小知识之对象间的比较

    == 和 is 是 Python 中对象比较常用的两种方式,简单来说,'==' 操作符比较对象之间的值是否相等,下面这篇文章主要给大家介绍了关于Python实用小知识之对象间比较的相关资料,需要的朋友可以参考下
    2021-10-10
  • python中如何使用xml.dom.minidom模块读取解析xml文件

    python中如何使用xml.dom.minidom模块读取解析xml文件

    xml.dom.minidom模块应该是内置模块不用下载安装,本文给大家介绍python中如何使用xml.dom.minidom模块读取解析xml文件,感兴趣的朋友一起看看吧
    2023-10-10
  • 详解python tkinter包获取本地绝对路径(以获取图片并展示)

    详解python tkinter包获取本地绝对路径(以获取图片并展示)

    这篇文章主要给大家介绍了关于python tkinter包获取本地绝对路径(以获取图片并展示)的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09

最新评论