Python信息抽取之乱码解决办法

 更新时间:2017年06月29日 09:08:07   投稿:lqh  
这篇文章主要介绍了Python信息抽取之乱码解决办法的相关资料,需要的朋友可以参考下

Python信息抽取之乱码解决办法

就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧

  信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入mysql 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

  以下给出一些流程:(具体各个库不是我这里向说的哦)

 import urllib2

   import chardet

  html = urllib2.urlopen("某网站")

  print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}

  好,这整个html的编码都知道,该插入以utf-8建立的mysql数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码

if chardet.detect(name)['encoding'] == 'GB2312':
  name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
 name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
 name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
 name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
 name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
  name = '未知'

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • Python开发必须掌握的Pip使用全攻略

    Python开发必须掌握的Pip使用全攻略

    在这篇文章中,我们将深入探讨Python的主要包管理工具——Pip,包括Pip的基本概念、安装和配置、中国国内镜像源的使用等,需要的可以参考一下
    2023-07-07
  • Python中的魔术方法__new__详解

    Python中的魔术方法__new__详解

    这篇文章主要介绍了Python中的魔术方法__new__的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2025-04-04
  • Python 脚本拉取 Docker 镜像问题

    Python 脚本拉取 Docker 镜像问题

    这篇文章主要介绍了 Python 脚本拉取 Docker 镜像问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-11-11
  • python的rllib库你了解吗

    python的rllib库你了解吗

    这篇文章主要介绍了python urllib库的使用,帮助大家更好的利用python学习爬虫,感兴趣的朋友可以了解下,希望能够给你带来帮助
    2021-11-11
  • PyCharm中安装PIL/Pillow的方法

    PyCharm中安装PIL/Pillow的方法

    这篇文章主要介绍了PyCharm中PIL/Pillow的安装,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • pycharm 如何缩进和SQL乱码及SQL包含变量

    pycharm 如何缩进和SQL乱码及SQL包含变量

    这篇文章主要介绍了pycharm 如何缩进和SQL乱码及SQL包含变量,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • 详解Python如何利用turtle绘制中国结

    详解Python如何利用turtle绘制中国结

    春节是中国特有的传统节日,中国结是中华民族特有的纯粹的文化精髓,富含丰富的文化底蕴。本文将利用turtle绘制一个中国结,需要的可以参考一下
    2022-02-02
  • Python数据分析之Excel和Text文件的读写操作方法

    Python数据分析之Excel和Text文件的读写操作方法

    Python操作Excel分为两个主要形式,读写和交互式操作,可以用不同的第三方工具,下面这篇文章主要给大家介绍了关于Python数据分析之Excel和Text文件的读写操作方法,需要的朋友可以参考下
    2024-08-08
  • 使用python Fabric动态修改远程机器hosts的方法

    使用python Fabric动态修改远程机器hosts的方法

    今天小编就为大家分享一篇使用python Fabric动态修改远程机器hosts的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Keras设定GPU使用内存大小方式(Tensorflow backend)

    Keras设定GPU使用内存大小方式(Tensorflow backend)

    这篇文章主要介绍了Keras设定GPU使用内存大小方式(Tensorflow backend),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05

最新评论