Python进阶多线程爬取网页项目实战

更新时间：2021年10月21日 15:44:43 作者：Python进阶多线程爬取网页项目实战

这篇文章主要为大家介绍了Python进阶，Python多线程爬取网页项目实战的示例呈现步骤，有需要的朋友可以借鉴参考下，希望能够有所帮助

一、网页分析

这次我们选择爬取的网站是水木社区的Python页面
网页：https://www.mysmth.net/nForum/#!board/Python?p=1

在这里插入图片描述

根据惯例，我们第一步还是分析一下页面结构和翻页时的请求。

在这里插入图片描述

通过前三页的链接分析后得知，每一页链接中最后的参数是页数，我们修改它即可得到其他页面的数据。

再来分析一下，我们需要获取帖子的链接就在id 为 body 的 section下，然后一层一层找到里面的 table，我们就能遍历这些链接的标题。

在这里插入图片描述

我们点开一篇帖子：https://www.mysmth.net/nForum/#!article/Python/162717

和前面一样，我们先分析标题和内容在网页中的结构

不难发现，主题部分只要找到 id 为 main 的 section 下面的 class 为 b-head corner 的下面第二个 span即可
主题部分

在这里插入图片描述

而内容部分只要找到class 为 a-wrap corner 的 div，找到下面的 a-content即可。
内容部分

在这里插入图片描述

分析网页结构后，我们就可以开始写代码了！

二、代码实现

首先要确定要保存什么内容：这次我们保存水木社区 Python 版面前 10 页的所有帖子标题和帖子第一页的所有回复。

解析列表页，得到所有的帖子链接

from bs4 import BeautifulSoup
# 解析列表页内容，得到这一页的内容链接
def parse_list_page(text):
  soup = BeautifulSoup(text, 'html.parser')
	# 下面相当于 soup.find('table', class_='board-list tiz').find('tbody')
  tbody = soup.find('table', class_='board-list tiz').tbody
  urls = []
  for tr in tbody:
    td = tr.find('td', class_='title_9')
    urls.append(td.a.attrs['href'])
  return urls

解析内容页，得到标题和这一页的所有帖子内容

# 解析内容页，得到标题和所有帖子内容
def parse_content_page(text):
  soup = BeautifulSoup(text, 'html.parser')
  title = soup.find('span', class_='n-left').text.strip('文章主题:').strip()
  content_div = soup.find('div', class_='b-content corner')
  contents = []
  for awrap in content_div.find_all('div', class_='a-wrap corner'):
    content = awrap.p.text
    contents.append(content)
  return title, contents

把列表页的链接转换成我们要抓取的链接

def convert_content_url(path):
  URL_PREFIX = 'http://www.mysmth.net'
  path += '?ajax'
  return URL_PREFIX + path

生成前 10 页的列表页链接

list_urls = []
for i in range(1, 11):
  url = 'http://www.mysmth.net/nForum/board/Python?ajax&p='
  url += str(i)
  list_urls.append(url)

下面是得到前 10 页列表页里所有正文的链接。这个时候我们使用线程池的方式来运行

import requests
from concurrent import futures
session = requests.Session()
executor = futures.ThreadPoolExecutor(max_workers=5)
# 这个函数获取列表页数据，解析出链接，并转换成真实链接
def get_content_urls(list_url):
  res = session.get(list_url)
  content_urls = parse_list_page(res.text)
  real_content_urls = []
  for url in content_urls:
    url = convert_content_url(url)
    real_content_urls.append(url)
  return real_content_urls
# 根据刚刚生成的十个列表页链接，开始提交任务
fs = []
for list_url in list_urls:
  fs.append(executor.submit(get_content_urls, list_url))
futures.wait(fs)
content_urls = set()
for f in fs:
  for url in f.result():
    content_urls.add(url)

在这里要注意一下，第 23 行中我们使用了 set() 函数，作用是去除重复值。它的原理是创建一个 Set（集合），集合是 Python 中的一种特殊数据类型，其中可以包含多个元素，但是不能重复。我们来看看 set() 的用法

numbers = [1, 1, 2, 2, 2, 3, 4]
unique = set(numbers)
print(type(unique))
# 输出：<class 'set'>
print(unique)
# 输出：{1, 2, 3, 4}

我们看到，set() 将列表 numbers 转换成了没有重复元素的集合 {1, 2, 3, 4}。

我们利用这个特性，首先在 23 行通过 content_urls = set() 创建了一个空集合，之后在其中添加链接时，就会自动去除多次出现的链接。

得到了所有正文链接之后，我们解析正文页内容，放到一个字典里

# 获取正文页内容，解析出标题和帖子
def get_content(url):
  r = session.get(url)
  title, contents = parse_content_page(r.text)
  return title, contents
# 提交解析正文的任务
fs = []
for url in content_urls:
  fs.append(executor.submit(get_content, url))
futures.wait(fs)
results = {}
for f in fs:
  title, contents = f.result()
  results[title] = contents
print(results.keys())

就这样，我们完成了多线程的水木社区爬虫。打印 results.keys() 可以看到所有帖子的标题。

这次爬取了前十页的所有主题，以及他们的第一页回复。一共 10 个列表页、300 个主题页，解析出 1533 条回复。在一台网络良好、性能普通的机器上测试执行只花费了 13 秒左右。

完整代码如下

import requests
from concurrent import futures
from bs4 import BeautifulSoup
# 解析列表页内容，得到这一页的内容链接
def parse_list_page(text):
  soup = BeautifulSoup(text, 'html.parser')
  tbody = soup.find('table', class_='board-list tiz').tbody
  urls = []
  for tr in tbody:
    td = tr.find('td', class_='title_9')
    urls.append(td.a.attrs['href'])
  return urls
# 解析内容页，得到标题和所有帖子内容
def parse_content_page(text):
  soup = BeautifulSoup(text, 'html.parser')
  title = soup.find('span', class_='n-left').text.strip('文章主题:').strip()
  content_div = soup.find('div', class_='b-content corner')
  contents = []
  for awrap in content_div.find_all('div', class_='a-wrap corner'):
    content = awrap.p.text
    contents.append(content)
  return title, contents
# 把列表页得到的链接转换成我们要抓取的链接
def convert_content_url(path):
  URL_PREFIX = 'http://www.mysmth.net'
  path += '?ajax'
  return URL_PREFIX + path
# 生成前十页的链接
list_urls = []
for i in range(1, 11):
  url = 'http://www.mysmth.net/nForum/board/Python?ajax&p='
  url += str(i)
  list_urls.append(url)
session = requests.Session()
executor = futures.ThreadPoolExecutor(max_workers=5)
# 这个函数获取列表页数据，解析出链接，并转换成真实链接
def get_content_urls(list_url):
  res = session.get(list_url)
  content_urls = parse_list_page(res.text)
  real_content_urls = []
  for url in content_urls:
    url = convert_content_url(url)
    real_content_urls.append(url)
  return real_content_urls
# 根据刚刚生成的十个列表页链接，开始提交任务
fs = []
for list_url in list_urls:
  fs.append(executor.submit(get_content_urls, list_url))
futures.wait(fs)
content_urls = set()
for f in fs:
  for url in f.result():
    content_urls.add(url)
# 获取正文页内容，解析出标题和帖子
def get_content(url):
  r = session.get(url)
  title, contents = parse_content_page(r.text)
  return title, contents
# 提交解析正文的任务
fs = []
for url in content_urls:
  fs.append(executor.submit(get_content, url))
futures.wait(fs)
results = {}
for f in fs:
  title, contents = f.result()
  results[title] = contents
print(results.keys())

本次分享到此结束，谢谢大家阅读！！
有问题欢迎评论区留言！！

更多关于Python多线程爬取网页实战的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Tensorflow进行多维矩阵的拆分与拼接实例
今天小编就为大家分享一篇Tensorflow进行多维矩阵的拆分与拼接实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
原来我一直安装 Python 库的姿势都不对呀
平常我都是直接执行 pip install 安装的第三方库，很多教程也是这么介绍的，一直以来我都认为这是标准的、正确的安装 Python 第三方库的姿势。下面小编给大家分享一篇教程，一起看看吧
2019-11-11
Python pip安装第三方库实现过程解析
这篇文章主要介绍了Python pip安装第三方库实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-07-07
python入门之井字棋小游戏
这篇文章主要为大家详细介绍了python入门学习之井字棋小游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-03-03
Django 报错:Broken pipe from ('127.0.0.1', 5892
这篇文章主要介绍了Django 报错:Broken pipe from ('127.0.0.1', 58924)的解决方案，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-09-09
Python+PyQt5编写图片格式转换器
这篇文章主要为大家详细介绍了如何利用Python和PyQt5编写一个简单的图片格式转换器，文中的示例代码讲解详细，感兴趣的小伙伴可以动手尝试一下
2023-07-07
Python retrying 重试机制的使用方法
我们在程序开发中，经常会需要请求一些外部的接口资源，而且我们不能保证每次请求一定会成功，所以这些涉及到网络请求的代码片段就需要加上重试机制。本文就来详细的介绍一下，感兴趣的可以了解一下
2021-09-09
python中的函数递归和迭代原理解析
这篇文章主要介绍了python中的函数递归和迭代原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
python中实现词云图的示例
这篇文章主要介绍了python中实现词云图的示例，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2020-12-12
python模拟点击在ios中实现的实例讲解
在本篇文章里小编给大家整理的是一篇关于python模拟点击在ios中实现的实例讲解内容，有需要的朋友们可以参考下。
2020-11-11

Python进阶多线程爬取网页项目实战

目录

一、网页分析

二、代码实现

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具