Python如何使用BeautifulSoup爬取网页信息

更新时间：2019年11月26日 09:23:12 作者：陈畅

这篇文章主要介绍了Python如何使用BeautifulSoup爬取网页信息,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

简单爬取网页信息的思路一般是

1、查看网页源码

2、抓取网页信息

3、解析网页内容

4、储存到文件

现在使用BeautifulSoup解析库来爬取刺猬实习Python岗位薪资情况

一、查看网页源码

这部分是我们需要的内容，对应的源码为：

分析源码，可以得知：

1、岗位信息列表在<section class="widget-job-list">中

2、每条信息在<article class="widget item">中

3、对于每条信息，我们需要提取出的内容是公司名称，职位，薪资

二、抓取网页信息

使用request.get()抓取，返回的soup是网页的文本信息

def get_one_page(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.text, "html.parser")
  return soup

三、解析网页内容

1、找到起始位置<section>

2、在<article>中匹配到各项信息

3、返回信息列表用以存储

def parse_page(soup):
  #待存储的信息列表
  return_list = []
  #起始位置
  grid = soup.find('section', attrs={"class": "widget-job-list"})
  if grid:
    #找到所有的岗位列表
    job_list = soup.find_all('article', attrs={"class": "widget item"})

    #匹配各项内容
    for job in job_list:
      #find()是寻找第一个符合的标签
      company = job.find('a', attrs={"class": "crop"}).get_text().strip()#返回类型为string，用strip（）可以去除空白符，换行符
      title = job.find('code').get_text()
      salary = job.find('span', attrs={"class": "color-3"}).get_text()
      #将信息存到列表中并返回
      return_list.append(company + " " + title + " " + salary)
  return return_list

四、存储到文件

将列表信息存储到shixi.csv文件中

def write_to_file(content):
  #以追加的方式打开，设置编码格式防止乱码
  with open("shixi.csv", "a", encoding="gb18030")as f:
    f.write("\n".join(content))

五、爬取多页信息

在网页url中可以看到最后的page代表的是页数信息

所以在main方法中传入一个page，然后循环运行main(page)就可以爬取多页信息了

def main(page):
  url = 'https://www.ciweishixi.com/search?key=python&page=' + str(page)
  soup = get_one_page(url)
  return_list = parse_page(soup)
  write_to_file(return_list)
if __name__ == "__main__":
  for i in range(4):
    main(i)

六、运行结果

七、完整代码

import requests
import re
from bs4 import BeautifulSoup

def get_one_page(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.text, "html.parser")
  return soup

def parse_page(soup):
  #待存储的信息列表
  return_list = []
  #起始位置
  grid = soup.find('section', attrs={"class": "widget-job-list"})
  if grid:
    #找到所有的岗位列表
    job_list = soup.find_all('article', attrs={"class": "widget item"})

    #匹配各项内容
    for job in job_list:
      #find()是寻找第一个符合的标签
      company = job.find('a', attrs={"class": "crop"}).get_text().strip()#返回类型为string，用strip（）可以去除空白符，换行符
      title = job.find('code').get_text()
      salary = job.find('span', attrs={"class": "color-3"}).get_text()
      #将信息存到列表中并返回
      return_list.append(company + " " + title + " " + salary)
  return return_list

def write_to_file(content):
  #以追加的方式打开，设置编码格式防止乱码
  with open("shixi.csv", "a", encoding="gb18030")as f:
    f.write("\n".join(content))
def main(page):
  url = 'https://www.ciweishixi.com/search?key=python&page=' + str(page)
  soup = get_one_page(url)
  return_list = parse_page(soup)
  write_to_file(return_list)
if __name__ == "__main__":
  for i in range(4):
    main(i)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python同义词替换的实现（jieba分词）
这篇文章主要介绍了python同义词替换的实现（jieba分词），文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-01-01
Python3 实现随机生成一组不重复数并按行写入文件
下面小编就为大家分享一篇Python3 实现随机生成一组不重复数并按行写入文件的示例。具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
Linux下把Python3设为默认Python版本的三种方法
这篇文章主要给大家介绍了关于Linux下把Python3设为默认Python版本的三种方法,在大部分开发过程中,我们需要使用到python3进行测试,于是下载安装python3,近乎是一种刚需,至于设置默认python指向python3可以参考本文
2023-09-09
python验证码识别实例代码
这篇文章主要介绍了python验证码识别实例代码，分享了相关代码示例，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下
2018-02-02
如何使用Python VTK绘制线条
这篇文章主要介绍了如何使用Python-VTK绘制线条，主要绘制直线和曲线，下面文章详细实现过程需要的小伙伴可以参考一下
2022-04-04
jupyter notebook 使用过程中python莫名崩溃的原因及解决方式
这篇文章主要介绍了jupyter notebook 使用过程中python莫名崩溃的原因及解决方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
Python可视化绘制图表的教程详解
python 有许多可视化工具，但本文主要为大家介绍一下Matplotlib。Matplotlib是一种2D的绘图库，它可以支持硬拷贝和跨系统的交互，感兴趣的可以了解一下
2022-10-10
pycharm安装opencv-python报错的解决
本文主要介绍了pycharm安装opencv-python报错的解决，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-07-07
Python matplotlib生成图片背景透明的示例代码
这篇文章主要介绍了Python matplotlib生成图片背景透明的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-08-08
Ubuntu下创建虚拟独立的Python环境全过程
virtualenv可以搭建虚拟且独立的python环境，可以使每个项目环境与其他项目独立开来，保持环境的干净，解决包冲突问题。本篇文章讲述如何在Linux以及Ubuntu中创建Python虚拟环境，以及Virtualenvwrapper的安装使用，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-02-02