python实现的读取网页并分词功能示例

 更新时间:2019年10月29日 09:24:37   作者:笨小孩好笨  
这篇文章主要介绍了python实现的读取网页并分词功能,结合实例形式分析了Python使用requests模块读取网页,以及jieba库分词的相关操作技巧,需要的朋友可以参考下

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

分词结果:

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python数学运算技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • Python3 pandas.concat的用法说明

    Python3 pandas.concat的用法说明

    这篇文章主要介绍了Python3 pandas.concat的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python创建exe运行器和截图工具的示例详解

    Python创建exe运行器和截图工具的示例详解

    本文我们将探讨如何使用Python和wxPython创建一个强大而实用的桌面应用程序,可以遍历指定文件夹中的所有EXE文件,感兴趣的小伙伴可以了解一下
    2024-10-10
  • 浅谈Python中range和xrange的区别

    浅谈Python中range和xrange的区别

    本篇文章主要介绍了浅谈Python中range和xrange的区别,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-12-12
  • opencv实现图像旋转效果

    opencv实现图像旋转效果

    这篇文章主要为大家详细介绍了opencv实现图像旋转效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • Python获取网段内ping通IP的方法

    Python获取网段内ping通IP的方法

    今天小编就为大家分享一篇Python获取网段内ping通IP的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 使用OpenCV实现图像的透视变换功能

    使用OpenCV实现图像的透视变换功能

    在计算机视觉领域,经常需要对图像进行各种几何变换,如旋转、缩放和平移等,本文主要介绍了如何使用OpenCV实现图像的透视变换,需要的可以参考下
    2024-11-11
  • Python XML RPC服务器端和客户端实例

    Python XML RPC服务器端和客户端实例

    这篇文章主要介绍了Python XML RPC服务器端和客户端实例,本文给出了实现代码以及运行效果,需要的朋友可以参考下
    2014-11-11
  • Python中super函数用法实例分析

    Python中super函数用法实例分析

    这篇文章主要介绍了Python中super函数用法,结合实例形式详细分析了Python中super函数的功能、调用父类相关原理、操作技巧与注意事项,需要的朋友可以参考下
    2019-03-03
  • Django框架ORM数据库操作实例详解

    Django框架ORM数据库操作实例详解

    这篇文章主要介绍了Django框架ORM数据库操作,结合实例形式详细分析了Django框架ORM数据库基本增删改查与相关函数使用技巧,需要的朋友可以参考下
    2019-11-11
  • Python functools.lru_cache装饰器性能提升利器深入探究

    Python functools.lru_cache装饰器性能提升利器深入探究

    本文将详细介绍functools.lru_cache装饰器的原理、用法以及适当的场景,以帮助你更好地利用这一功能,它可以用来缓存函数的输出,以避免重复计算,从而显著提高程序的执行速度
    2024-01-01

最新评论