python网络爬虫学习笔记(1)

 更新时间:2018年04月09日 10:26:23   作者:赖权华  
这篇文章主要为大家详细介绍了python网络爬虫学习笔记的第一篇,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python网络爬虫的笔记,供大家参考,具体内容如下

(一)   三种网页抓取方法

1、 正则表达式:

模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了。

2、Beautiful Soup

模块使用Python编写,速度慢。

安装:

pip install beautifulsoup4

3、 Lxml

模块使用C语言编写,即快速又健壮,通常应该是最好的选择。

(二) Lxml安装

pip install lxml

如果使用lxml的css选择器,还要安装下面的模块

pip install cssselect

(三)  使用lxml示例

import urllib.request as re
import lxml.html
#下载网页并返回HTML
def download(url,user_agent='Socrates',num=2):
  print('下载:'+url)
  #设置用户代理
  headers = {'user_agent':user_agent}
  request = re.Request(url,headers=headers)
  try:
    #下载网页
    html = re.urlopen(request).read()
  except re.URLError as e:
    print('下载失败'+e.reason)
    html=None
    if num>0:
      #遇到5XX错误时,递归调用自身重试下载,最多重复2次
      if hasattr(e,'code') and 500<=e.code<600:
        return download(url,num-1)
  return html
html = download('https://tieba.baidu.com/p/5475267611')
#将HTML解析为统一的格式
tree = lxml.html.fromstring(html)
# img = tree.cssselect('img.BDE_Image')
#通过lxml的xpath获取src属性的值,返回一个列表
img = tree.xpath('//img[@class="BDE_Image"]/@src')
x= 0
#迭代列表img,将图片保存在当前目录下
for i in img:
  re.urlretrieve(i,'%s.jpg'%x)
  x += 1

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python 读取excel并转换为字典的方法

    Python 读取excel并转换为字典的方法

    文章介绍了两种方法使用Python读取Excel文件并将其转换为字典,方法一使用xlrd库,方法二使用自定义的xToolkit库,感兴趣的朋友一起看看吧
    2025-03-03
  • Python arrow 更好的日期时间模块

    Python arrow 更好的日期时间模块

    这篇文章主要为大家介绍Python的arrow日期时间模块,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-11-11
  • 理解Python中函数的参数

    理解Python中函数的参数

    这篇文章主要介绍了Python中函数的参数,掌握函数中的参数传递在任何一门语言的学习过程当中都是基本功,需要的朋友可以参考下
    2015-04-04
  • python Pandas之DataFrame索引及选取数据

    python Pandas之DataFrame索引及选取数据

    这篇文章主要介绍了python Pandas之DataFrame索引及选取数据,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下
    2022-07-07
  • pandas数据探索之合并数据示例详解

    pandas数据探索之合并数据示例详解

    这篇文章主要为大家介绍了pandas数据探索之合并数据示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-10-10
  • python linecache读取行更新的实现

    python linecache读取行更新的实现

    本文主要介绍了python linecache读取行更新的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • Python实现求取表格文件某个区域内单元格的最大值

    Python实现求取表格文件某个区域内单元格的最大值

    这篇文章主要介绍基于Python语言,基于Excel表格文件内某一列的数据,计算这一列数据在每一个指定数量的行的范围内(例如每一个4行的范围内)的区间最大值的方法,需要的朋友可以参考下
    2023-08-08
  • python Pandas库read_excel()参数实例详解

    python Pandas库read_excel()参数实例详解

    人们经常用pandas处理表格型数据,时常需要读入excel表格数据,下面这篇文章主要给大家介绍了关于python Pandas库read_excel()参数的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-07-07
  • python实现一个通用的插件类

    python实现一个通用的插件类

    插件管理器用于注册、销毁、执行插件,本文主要介绍了python实现一个通用的插件类,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
    2024-04-04
  • Python 中的lambda匿名函数和三元运算符

    Python 中的lambda匿名函数和三元运算符

    这篇文章主要介绍了Python 中的lambda匿名函数和三元运算符,使用关键字 ​​lambda​​ 定义,所以匿名函数又称之为lambda表达式,下面文章更多相关内容需要的小伙伴可以参考一下
    2022-04-04

最新评论