python爬虫中采集中遇到的问题整理

 更新时间:2020年11月27日 15:20:13   作者:小妮浅浅  
在本篇文章里小编给大家整理了关于python爬虫中采集中遇到的问题整理内容,需要的朋友们可以学习参考下。

在爬虫的获取数据上,一直在讲一些爬取的方法,想必小伙伴们也学习了不少。在学习的过程中遇到了问题,大家也会一起交流解决,找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理,以及在遇到不同的问题时,我们应该想的是什么样的解决思路,具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

到此这篇关于python爬虫中采集中遇到的问题整理的文章就介绍到这了,更多相关python爬虫入门之采集中遇到的问题内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python面向对象程序设计类的多态用法详解

    Python面向对象程序设计类的多态用法详解

    这篇文章主要介绍了Python面向对象程序设计类的多态用法,结合实例形式详细分析了Python面向对象程序设计中类的多态概念、原理、用法及相关操作注意事项,需要的朋友可以参考下
    2019-04-04
  • 用Python写脚本,实现完全备份和增量备份的示例

    用Python写脚本,实现完全备份和增量备份的示例

    下面小编就为大家分享一篇用Python写脚本,实现完全备份和增量备份的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • 对python条件表达式的四种实现方法小结

    对python条件表达式的四种实现方法小结

    今天小编就为大家分享一篇对python条件表达式的四种实现方法小结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 解决Vscode中jupyter出现kernel dead问题

    解决Vscode中jupyter出现kernel dead问题

    遇到VSCode中Jupyter Kernel Dead时,可通过Anaconda Prompt安装ipykernel解决,首先使用jupyter kernelspec list命令查看内核,若发现缺少ipykernel,激活相应虚拟环境,使用conda install ipykernel命令安装,操作后,VSCode中Jupyter应能正常运行
    2024-09-09
  • python基础之装饰器详解

    python基础之装饰器详解

    这篇文章主要介绍了python基础之装饰器详解,文中有非常详细的代码示例,对正在学习python的小伙伴们有一定的帮助,需要的朋友可以参考下
    2021-04-04
  • python的unittest测试类代码实例

    python的unittest测试类代码实例

    这篇文章主要介绍了python的unittest测试类代码实例,具有一定参考价值,需要的朋友可以了解下。
    2017-12-12
  • opencv形态学中的孔洞填充详细图解

    opencv形态学中的孔洞填充详细图解

    我们在进行图像分割后,分割结果有时会有一些小孔洞,如图1所示,其中黑白两色表示两种不同的类别。一般情况下,这些孔洞属于错分情况,为了优化结果,我们通常对这些孔洞进行填充。今天我们就用python语言基于OpenCV实现孔洞填充
    2022-10-10
  • Python求离散序列导数的示例

    Python求离散序列导数的示例

    今天小编就为大家分享一篇Python求离散序列导数的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • python实现mask矩阵示例(根据列表所给元素)

    python实现mask矩阵示例(根据列表所给元素)

    这篇文章主要介绍了python实现mask矩阵示例(根据列表所给元素),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-07-07
  • python将一个英文语句以单词为单位逆序排放的方法

    python将一个英文语句以单词为单位逆序排放的方法

    今天小编就为大家分享一篇python将一个英文语句以单词为单位逆序排放的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12

最新评论