python网络爬虫学习笔记（1）

更新时间：2018年04月09日 10:26:23 作者：赖权华

这篇文章主要为大家详细介绍了python网络爬虫学习笔记的第一篇，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python网络爬虫的笔记，供大家参考，具体内容如下

（一）三种网页抓取方法

1、正则表达式：

模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。

2、Beautiful Soup

模块使用Python编写，速度慢。

安装：

pip install beautifulsoup4

3、 Lxml

模块使用C语言编写，即快速又健壮，通常应该是最好的选择。

（二） Lxml安装

pip install lxml

如果使用lxml的css选择器，还要安装下面的模块

pip install cssselect

（三）使用lxml示例

import urllib.request as re
import lxml.html
#下载网页并返回HTML
def download(url,user_agent='Socrates',num=2):
  print('下载:'+url)
  #设置用户代理
  headers = {'user_agent':user_agent}
  request = re.Request(url,headers=headers)
  try:
    #下载网页
    html = re.urlopen(request).read()
  except re.URLError as e:
    print('下载失败'+e.reason)
    html=None
    if num>0:
      #遇到5XX错误时，递归调用自身重试下载，最多重复2次
      if hasattr(e,'code') and 500<=e.code<600:
        return download(url,num-1)
  return html
html = download('https://tieba.baidu.com/p/5475267611')
#将HTML解析为统一的格式
tree = lxml.html.fromstring(html)
# img = tree.cssselect('img.BDE_Image')
#通过lxml的xpath获取src属性的值，返回一个列表
img = tree.xpath('//img[@class="BDE_Image"]/@src')
x= 0
#迭代列表img,将图片保存在当前目录下
for i in img:
  re.urlretrieve(i,'%s.jpg'%x)
  x += 1

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python 读取excel并转换为字典的方法
文章介绍了两种方法使用Python读取Excel文件并将其转换为字典,方法一使用xlrd库,方法二使用自定义的xToolkit库,感兴趣的朋友一起看看吧
2025-03-03
Python arrow 更好的日期时间模块
这篇文章主要为大家介绍Python的arrow日期时间模块，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2021-11-11
理解Python中函数的参数
这篇文章主要介绍了Python中函数的参数,掌握函数中的参数传递在任何一门语言的学习过程当中都是基本功,需要的朋友可以参考下
2015-04-04
python Pandas之DataFrame索引及选取数据
这篇文章主要介绍了python Pandas之DataFrame索引及选取数据，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
2022-07-07
pandas数据探索之合并数据示例详解
这篇文章主要为大家介绍了pandas数据探索之合并数据示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-10-10
python linecache读取行更新的实现
本文主要介绍了python linecache读取行更新的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-03-03
Python实现求取表格文件某个区域内单元格的最大值
这篇文章主要介绍基于Python语言,基于Excel表格文件内某一列的数据,计算这一列数据在每一个指定数量的行的范围内（例如每一个4行的范围内）的区间最大值的方法,需要的朋友可以参考下
2023-08-08
python Pandas库read_excel()参数实例详解
人们经常用pandas处理表格型数据,时常需要读入excel表格数据,下面这篇文章主要给大家介绍了关于python Pandas库read_excel()参数的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-07-07
python实现一个通用的插件类
插件管理器用于注册、销毁、执行插件,本文主要介绍了python实现一个通用的插件类,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
2024-04-04
Python 中的lambda匿名函数和三元运算符
这篇文章主要介绍了Python 中的lambda匿名函数和三元运算符，使用关键字 lambda 定义，所以匿名函数又称之为lambda表达式，下面文章更多相关内容需要的小伙伴可以参考一下
2022-04-04

python网络爬虫学习笔记（1）

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具