Python信息抽取之乱码解决办法

 更新时间:2017年06月29日 09:08:07   投稿:lqh  
这篇文章主要介绍了Python信息抽取之乱码解决办法的相关资料,需要的朋友可以参考下

Python信息抽取之乱码解决办法

就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧

  信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入mysql 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

  以下给出一些流程:(具体各个库不是我这里向说的哦)

 import urllib2

   import chardet

  html = urllib2.urlopen("某网站")

  print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}

  好,这整个html的编码都知道,该插入以utf-8建立的mysql数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码

if chardet.detect(name)['encoding'] == 'GB2312':
  name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
 name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
 name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
 name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
 name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
  name = '未知'

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • python游戏库pygame经典教程(推荐!)

    python游戏库pygame经典教程(推荐!)

    Python Pygame是一款专门为开发和设计 2D 电子游戏而生的软件包,是入门级游戏开发库,下面这篇文章主要给大家介绍了python游戏库pygame经典教程的相关资料,需要的朋友可以参考下
    2022-12-12
  • python实现简单中文词频统计示例

    python实现简单中文词频统计示例

    本篇文章主要介绍了python实现简单中文词频统计示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-11-11
  • 如何在Python函数执行前后增加额外的行为

    如何在Python函数执行前后增加额外的行为

    有的时候会需要在函数前后添点额外的功能(比如过滤、计时等)时,以前总是首先想到装饰器。最近学习了Python的上下文管理器,所以本文就给大家介绍了如何在Python函数执行前后增加额外的行为,有需要的朋友们可以参考借鉴,下面来一起看看吧。
    2016-10-10
  • Pygame实现游戏最小系统功能详解

    Pygame实现游戏最小系统功能详解

    这篇文章主要介绍了Pygame实现游戏最小系统,Pygame是一个专门用来开发游戏的 Python 模块,主要为开发、设计 2D 电子游戏而生,具有免费、开源,支持多种操作系统,具有良好的跨平台性等优点
    2022-11-11
  • python爬虫获取多页天涯帖子

    python爬虫获取多页天涯帖子

    本篇文章通过爬取多页天涯帖子内容来教给大家深入理解python爬虫相关知识,有兴趣的参考学习下。
    2018-02-02
  • PyTorch中的神经网络 Mnist 分类任务

    PyTorch中的神经网络 Mnist 分类任务

    这篇文章主要介绍了PyTorch中的神经网络 Mnist 分类任务,在本次的分类任务当中,我们使用的数据集是 Mnist 数据集,这个数据集大家都比较熟悉,需要的朋友可以参考下
    2023-03-03
  • 通过Python实现一个简单的html页面

    通过Python实现一个简单的html页面

    这篇文章主要介绍了通过Python写一个简单的html页面,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Python K-means实现简单图像聚类的示例代码

    Python K-means实现简单图像聚类的示例代码

    本文主要介绍了Python K-means实现简单图像聚类的示例代码,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-10-10
  • 基于numpy中数组元素的切片复制方法

    基于numpy中数组元素的切片复制方法

    今天小编就为大家分享一篇基于numpy中数组元素的切片复制方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • Python实现中文数字转换为阿拉伯数字的方法示例

    Python实现中文数字转换为阿拉伯数字的方法示例

    这篇文章主要介绍了Python实现中文数字转换为阿拉伯数字的方法,涉及Python字符串遍历、转换相关操作技巧,需要的朋友可以参考下
    2017-05-05

最新评论