python抓取某汽车网数据解析html存入excel示例

 更新时间:2013年12月04日 14:34:40   作者:  
python抓取某汽车网经销商信息网页数据解析html,这里提供一个示例演示,大家可以根据需要分析自己网站的数据

1、某汽车网站地址

2、使用firefox查看后发现,此网站的信息未使用json数据,而是简单那的html页面而已

3、使用pyquery库中的PyQuery进行html的解析

页面样式:

复制代码 代码如下:

def get_dealer_info(self):
        """获取经销商信息"""
        css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '
        #使用火狐浏览器中的自动复制css路径得到需要位置数据
        page = urllib2.urlopen(self.entry_url).read()
        #读取页面
        page = page.replace('<br />','&')
        page = page.replace('<br/>','&')
        #由于页面中的电话信息中使用了br换行,所以在抓取的时候会产生问题
        #问题是:如果取得一对标签中的数据,中包含<br/>,会出现值得到br之前的数据,而后的数据将得不到,原因个人认为是解析html是会任务/>结尾标准       
        d = pq(page)
        #使用PyQuery解析页面,此处pq=PyQuery,因为from pyquery import PyQuery as pq
        dealer_list = []
        #创建列表用于提交到存储方法
        for dealer_div in d(css_select):
            #此处定位tr,具体数据在此标签中的td标签内
            p = dealer_div.findall('td')
            #此处p就是一个tr标签内,全部td数据的集合
            dealer = {}
            #此处的字典用于存储一个店铺的信息用于提交到列表中
            if len(p)==1:
                #此处多哥if判断是用于对数据进行处理,因为一些格式不符合最终数据的要求,需要剔除,这个快的代码按需求而定
                print '@'
            elif len(p)==6 :
                strp = p[0].text.strip()
                dealer[Constant.CITY] = p[1].text.strip()
                strc = p[2].text.strip()

                dealer[Constant.PROVINCE] = p[0].text.strip()
                dealer[Constant.CITY] = p[1].text.strip()
                dealer[Constant.NAME] = p[2].text.strip()
                dealer[Constant.ADDRESSTYPE] = p[3].text.strip()
                dealer[Constant.ADDRESS] = p[4].text.strip()
                dealer[Constant.TELPHONE] = p[5].text.strip()
                dealer_list.append(dealer) 
            elif len(p)==5:
                if p[0].text.strip() != u'省份':
                    dealer[Constant.PROVINCE] = strp
                    dealer[Constant.CITY] = p[0].text.strip()
                    dealer[Constant.NAME] = p[1].text.strip()
                    dealer[Constant.ADDRESSTYPE] = p[2].text.strip()
                    dealer[Constant.ADDRESS] = p[3].text.strip()
                    dealer[Constant.TELPHONE] = p[4].text.strip()
                    dealer_list.append(dealer)
            elif len(p)==3:
                print '@@'
        print '@@@'
        self.saver.add(dealer_list)
        self.saver.commit()

4、最终代码执行成功,得到了相应数据并存入excel中

相关文章

  • python相似模块用例

    python相似模块用例

    这篇文章主要为大家详细介绍了python相似模块用例,感兴趣的小伙伴们可以参考一下
    2016-03-03
  • keras 读取多标签图像数据方式

    keras 读取多标签图像数据方式

    这篇文章主要介绍了keras 读取多标签图像数据方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • 对pyqt5中QTabWidget的相关操作详解

    对pyqt5中QTabWidget的相关操作详解

    今天小编就为大家分享一篇对pyqt5中QTabWidget的相关操作详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • 使用Python开发一个Word文档批量合并工具

    使用Python开发一个Word文档批量合并工具

    我们经常需要将多个Word文档合并成一个完整的文档,无论是整理项目报告、汇编会议纪要,还是制作培训材料,手动复制粘贴不仅效率低下,还容易出错,今天,我将分享如何使用Python开发一个功能完善的Word文档批量合并工具,需要的朋友可以参考下
    2025-05-05
  • Python Traceback(most recent call last)报错信息:示例解读

    Python Traceback(most recent call last)报错信息:示例解读

    这篇文章主要介绍了Python Traceback(most recent call last)报错信息:示例解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • Pandas数据如何读取与导出

    Pandas数据如何读取与导出

    Pandas是一个强大的Python库,用于数据处理和分析,它提供了多种文件格式的数据读取和导出方法,包括CSV、Excel、SQL数据库、JSON等,常用的数据读取方法为`pd.read_csv()`、`pd.read_excel()`等,导出方法为`to_csv()`、`to_excel()`等
    2025-01-01
  • 浅谈python为什么不需要三目运算符和switch

    浅谈python为什么不需要三目运算符和switch

    下面小编就为大家带来一篇浅谈python为什么不需要三目运算符和switch。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-06-06
  • PyTorch 中的 torch.utils.data 解析(推荐)

    PyTorch 中的 torch.utils.data 解析(推荐)

    这篇文章主要介绍了PyTorch torch.utils.data.Dataset概述案例详解,主要介绍对 torch.utils.data.Dataset 的理解,需要的朋友可以参考下
    2023-02-02
  • 一文带你了解Python 四种常见基础爬虫方法介绍

    一文带你了解Python 四种常见基础爬虫方法介绍

    这篇文章主要介绍了一文带你了解Python 四种常见基础爬虫方法介绍,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python爬虫谷歌Chrome F12抓包过程原理解析

    Python爬虫谷歌Chrome F12抓包过程原理解析

    这篇文章主要介绍了Python爬虫谷歌Chrome F12抓包过程原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06

最新评论