利用Python抓取行政区划码的方法
前言
国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来。
注意:抓取下来以后还要进行简单的人工的整理
示例代码:
# -*- coding:utf-8 -*- ''' 获取国家统计局上的行政区划码 ''' import requests,re base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html' def get_xzqh(): html_data = requests.get(base_url).content pattern = re.compile('<p class="MsoNormal" style=".*?"><span lang="EN-US" style=".*?">(\d+)<span>.*?</span></span><span style=".*?">(.*?)</span></p>') areas = re.findall(pattern,html_data) print "code,name,level" for area in areas: print area[0],area[1].decode('utf-8').replace(u' ',''),area[1].decode('utf-8').count(u' ') if __name__=='__main__': get_xzqh()
注意事项:
另外,关于国家地区表的信息,还有另外一种获取渠道,那就是QQ软件自带的国家地区信息表。(文件名为LocList.xml
),一般的存储位置为:C:\Program Files\Tencent\QQ\I18N\2052
如需中文版安装中文版QQ即可获取,如需英文版则安装英文版QQ。国际版在1033目录。
code都是按照ISO3166标准写的,极易导入数据库。
总结
以上就是利用Python获取行政区划码的全部内容,希望本文的内容对大家学习或者使用python能有所帮助,如果有疑问大家可以留言交流。
相关文章
Python实现定时备份mysql数据库并把备份数据库邮件发送
这篇文章主要介绍了Python实现定时备份mysql数据库并把备份数据库邮件发送的相关资料,需要的朋友可以参考下2018-03-03python爬虫学习笔记之Beautifulsoup模块用法详解
这篇文章主要介绍了python爬虫学习笔记之Beautifulsoup模块用法,结合实例形式详细分析了python爬虫Beautifulsoup模块基本功能、原理、用法及操作注意事项,需要的朋友可以参考下2020-04-04解决Python下imread,imwrite不支持中文的问题
今天小编就为大家分享一篇解决Python下imread,imwrite不支持中文的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2018-12-12
最新评论