从零开始学习Python与BeautifulSoup网页数据抓取

更新时间：2024年01月28日 10:33:03 作者：程序员晓晓

想要从零开始学习Python和BeautifulSoup网页数据抓取？本指南将为你提供简单易懂的指导,让你掌握这两个强大的工具,不管你是初学者还是有经验的开发者,本指南都能帮助你快速入门并提升技能,不要错过这个机会,开始你的编程之旅吧！

在网络时代，数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言，自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Python 中最常用的爬虫库之一，它能够帮助我们快速、简单地解析 HTML 和 XML 文档，从而提取出我们需要的数据。

本文将介绍如何使用 BeautifulSoup 爬取网页数据，并提供详细的代码和注释，帮助读者快速上手。

安装 BeautifulSoup

在开始之前，我们需要先安装 BeautifulSoup。可以使用 pip 命令进行安装：

pip install beautifulsoup4

爬取网页数据

在本文中，我们将以爬取豆瓣电影 Top250 为例，介绍如何使用 BeautifulSoup 爬取网页数据。

首先，我们需要导入必要的库：

import requests
from bs4 import BeautifulSoup

然后，我们需要获取网页的 HTML 代码。可以使用 requests 库中的 get() 方法来获取网页：

url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text

接下来，我们需要使用 BeautifulSoup 解析 HTML 代码。可以使用 BeautifulSoup 的构造方法来创建一个 BeautifulSoup 对象：

soup = BeautifulSoup(html, 'html.parser')

这里我们使用了 ‘html.parser’ 作为解析器，也可以使用其他解析器，如 lxml、html5lib 等。

现在，我们已经成功地将网页的 HTML 代码解析成了一个 BeautifulSoup 对象。接下来，我们可以使用 BeautifulSoup 对象中的方法来提取我们需要的数据。

提取数据

在豆瓣电影 Top250 页面中，每个电影都包含了电影名称、导演、演员、评分等信息。我们可以使用 BeautifulSoup 提供的 find()、find_all() 等方法来提取这些信息。

首先，我们需要找到包含电影信息的 HTML 元素。可以使用浏览器的开发者工具来查看网页的 HTML 代码，找到对应的元素。在豆瓣电影 Top250 页面中，每个电影都包含在一个 class 为 ‘item’ 的 div 元素中：

<div class="item">
  <div class="pic">
    <em class="">1</em>
    <a href="https://movie.douban.com/subject/1292052/">
      <img src="https://img9.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" class="" />
    </a>
  </div>
  <div class="info">
    <div class="hd">
      <a href="https://movie.douban.com/subject/1292052/" class="">
        <span class="title">肖申克的救赎</span>
        <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
        <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
      </a>
      <span class="playable">[可播放]</span>
    </div>
    <div class="bd">
      <p class="">
        导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br />
        1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
      </p>
      <div class="star">
        <span class="rating5-t"></span>
        <span class="rating_num" property="v:average">9.7</span>
        <span property="v:best" content="10.0"></span>
        <span>1057904人评价</span>
      </div>
      <p class="quote">
        <span class="inq">希望让人自由。</span>
      </p>
    </div>
  </div>
</div>

我们可以使用 find_all() 方法来找到所有 class 为 ‘item’ 的 div 元素：

items = soup.find_all('div', class_='item')

这里我们使用了 class_ 参数来指定 class 属性，因为 class 是 Python 中的关键字。

现在，我们已经成功地找到了所有电影的 HTML 元素。接下来，我们可以使用 BeautifulSoup 对象中的方法来提取电影信息。

例如，我们可以使用 find() 方法来找到电影名称所在的 HTML 元素：

title = item.find('span', class_='title').text

这里我们使用了 text 属性来获取 HTML 元素的文本内容。

类似地，我们可以使用其他方法来提取导演、演员、评分等信息。完整的代码如下：

import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
items = soup.find_all('div', class_='item')
for item in items:
    title = item.find('span', class_='title').text
    director = item.find('div', class_='bd').p.text.split()[1]
    actors = item.find('div', class_='bd').p.text.split()[2:]
    rating = item.find('span', class_='rating_num').text
    print('电影名称：', title)
    print('导演：', director)
    print('演员：', ' '.join(actors))
    print('评分：', rating)
    print('------------------------')

总结

本文介绍了如何使用 BeautifulSoup 爬取网页数据，并提供了详细的代码和注释。通过本文的学习，读者可以掌握如何使用 BeautifulSoup 解析 HTML 和 XML 文档，从而提取出需要的数据。同时，读者也可以将本文中的代码应用到其他网页数据的爬取中。

到此这篇关于从零开始学习Python与BeautifulSoup网页数据抓取的文章就介绍到这了,更多相关BeautifulSoup 爬取网页数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python web.py开发httpserver解决跨域问题实例解析
这篇文章主要介绍了python web.py开发httpserver解决跨域问题实例解析，分享了相关代码示例，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下
2018-02-02
详解python编程slice与indices函数用法示例
这篇文章主要介绍了详解python编程中slice与indices使用示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2021-09-09
OpenCV读取与写入图片的实现
这篇文章主要介绍了OpenCV读取与写入图片的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
python爬虫获取多页天涯帖子
本篇文章通过爬取多页天涯帖子内容来教给大家深入理解python爬虫相关知识，有兴趣的参考学习下。
2018-02-02
python爬虫模拟登录人人网过程解析
这篇文章主要介绍了python爬虫模拟登录人人网过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
tensorflow基本操作小白快速构建线性回归和分类模型
这篇文章主要介绍了tensorflow基本操作,快速构建线性回归和分类模型,图文代码示例非常详细，有需要的朋友可以借鉴参考下，希望可以对大家有所帮助
2021-08-08
Python闭包和装饰器用法实例详解
这篇文章主要介绍了Python闭包和装饰器用法,结合实例形式详细分析了Python闭包和装饰器的相关概念、原理、使用技巧与相关操作注意事项,需要的朋友可以参考下
2019-05-05
windows下python安装pip方法详解
这篇文章主要介绍了windows下python安装pip方法详解,需要的朋友可以参考下
2020-02-02
使用Python编写一个自动化办公小助手
在日常办公中,我们常常会遇到一些重复性的任务,如批量处理文件,发送邮件等,本文我们将使用Python 编写一个自动化办公小助手,帮助你高效完成这些任务
2025-10-10
从基础到高级技巧详解Python openpyxl设置Excel边框的完全指南
在使用 Python 进行 Excel 自动化处理时,openpyxl 是最流行的库之一,本文将详细介绍如何使用 openpyxl 设置单元格边框,从最基础的用法到高级封装技巧,助你制作出专业的 Excel 报表
2025-12-12