Python3使用正则表达式爬取内涵段子示例

 更新时间:2018年04月22日 11:49:32   作者:wangbowj123  
这篇文章主要介绍了Python3使用正则表达式爬取内涵段子,涉及Python正则匹配与文件读写相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python3使用正则表达式爬取内涵段子的方法。分享给大家供大家参考,具体如下:

似乎正则在爬虫中用的不是很广泛,但是也是基本功需要我们去掌握。

先将内涵段子网页爬取下来,之后利用正则进行匹配,匹配完成后将匹配的段子写入文本文档内。代码如下:

# -*- coding:utf-8 -*-
from urllib import request as urllib2
import re
# 利用正则表达式爬取内涵段子
url = r'http://www.neihanpa.com/article/list_5_{}.html'
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
}
file_name = '内涵段子.txt'
for page in range(2):
# 2表示页数,可以自行调整
  fullurl = url.format(str(page+1))
  request = urllib2.Request(url=fullurl, headers=headers)
  response = urllib2.urlopen(request)
  html = response.read().decode('gbk')
  # re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配
  # 如果加上re.S 则是将所有的字符串作为一个整体进行匹配
  pattern = re.compile(r'<div\sclass="f18 mb20">(.*?)</div>',re.S)
  duanzis = pattern.findall(html)
  for duanzi in duanzis:
    duanzi = duanzi.replace('<p>','').replace('</p>','').replace('<br />','\n').replace('&ldquo;','').replace('&rdquo','').replace('&hellip;','')
    try:
      # 将爬取的段子写入文件
      file = open(file_name,'a',encoding='utf-8')
      file.write('\n'.join(duanzi.split()))
      file.close()
    except OSError as e:
      print(e)

运行后生成如下图所示文件:

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • 详解PyQt5 GUI 接收UDP数据并动态绘图的过程(多线程间信号传递)

    详解PyQt5 GUI 接收UDP数据并动态绘图的过程(多线程间信号传递)

    这篇文章主要介绍了PyQt5 GUI 接收UDP数据并动态绘图(多线程间信号传递),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • python 中raise用法

    python 中raise用法

    这篇文章主要介绍了python 中raise用法,Python 允许我们在程序中手动设置异常,就是使用raise 语句来实现,下面我们就来看看raise的具体用法,文章内容介绍详细,具有一定的参考价值,需要的小伙伴可以参考一下
    2021-12-12
  • python中函数总结之装饰器闭包详解

    python中函数总结之装饰器闭包详解

    下面小编就为大家带来一篇python中函数总结之装饰器闭包详解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-06-06
  • python多线程实现TCP服务端

    python多线程实现TCP服务端

    这篇文章主要为大家详细介绍了python多线程实现TCP服务端,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-09-09
  • python 统计列表中不同元素的数量方法

    python 统计列表中不同元素的数量方法

    今天小编就为大家分享一篇python 统计列表中不同元素的数量方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • TensorFlow人工智能学习数据合并分割统计示例详解

    TensorFlow人工智能学习数据合并分割统计示例详解

    这篇文章主要为大家介绍了TensorFlow人工智能学习数据合并分割及统计的示例详解有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • python解析模块(ConfigParser)使用方法

    python解析模块(ConfigParser)使用方法

    很多软件都有配置文件,今天介绍一下python ConfigParser模块解析配置文件的使用方法
    2013-12-12
  • python实现视频抽帧与添加背景音频和字幕朗读的脚本分享

    python实现视频抽帧与添加背景音频和字幕朗读的脚本分享

    这篇文章主要为大家详细介绍了如何使用python实现视频抽帧、添加srt字幕朗读、添加背景音频等功能,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-11-11
  • jupyter notebook 的工作空间设置操作

    jupyter notebook 的工作空间设置操作

    这篇文章主要介绍了jupyter notebook 的工作空间设置操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Django 自定义分页器的实现代码

    Django 自定义分页器的实现代码

    这篇文章主要介绍了Django 自定义分页器的实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11

最新评论