Python实现爬虫抓取与读写、追加到excel文件操作示例

更新时间：2018年06月27日 08:48:16 作者：masterbu

这篇文章主要介绍了Python实现爬虫抓取与读写、追加到excel文件操作,结合具体实例形式分析了Python针对糗事百科的抓取与Excel文件读写相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现爬虫抓取与读写、追加到excel文件操作。分享给大家供大家参考，具体如下：

爬取糗事百科热门

安装读写excel 依赖 pip install xlwt安装追加excel文件内容依赖 pip install xlutils安装 lxml

Python示例：

import csv
import requests
from lxml import etree
import time
import xlwt
import os
from xlutils.copy import copy
import xlrd
data_infos_list = []
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '
         '(KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
# f = open('C:\\Users\\Administrator\\Desktop\\qiubaibook.csv', 'a+', newline='', encoding='utf-8')
# writer = csv.writer(f)
# writer.writerow(('author', 'sex', 'rank', 'content', 'great', 'comment', 'time'))
filename = 'C:\\Users\\Administrator\\Desktop\\qiubaibook.xls'
def get_info(url):
  res = requests.get(url, headers=headers)
  selector = etree.HTML(res.text)
  # print(res.text)
  htmls = selector.xpath('//div[contains(@class,"article block untagged mb15")]')
  # // *[ @ id = "qiushi_tag_120024357"] / a[1] / div / span 内容
  # //*[@id="qiushi_tag_120024357"]/div[2]/span[1]/i 好笑
  # //*[@id="c-120024357"]/i 评论
  # //*[@id="qiushi_tag_120024357"]/div[1]/a[2]/h2 作者
  # //*[@id="qiushi_tag_120024357"]/div[1]/div 等级
  # // womenIcon manIcon 性别
  for html in htmls:
    author = html.xpath('div[1]/a[2]/h2/text()')
    if len(author) == 0:
      author = html.xpath('div[1]/span[2]/h2/text()')
    rank = html.xpath('div[1]/div/text()')
    sex = html.xpath('div[1]/div/@class')
    if len(sex) == 0:
      sex = '未知'
    elif 'manIcon' in sex[0]:
      sex = '男'
    elif 'womenIcon' in sex[0]:
      sex = '女'
    if len(rank) == 0:
      rank = '-1'
    contents = html.xpath('a[1]/div/span/text()')
    great = html.xpath('div[2]/span[1]/i/text()') # //*[@id="qiushi_tag_112746244"]/div[3]/span[1]/i
    if len(great) == 0:
      great = html.xpath('div[3]/span[1]/i/text()')
    comment = html.xpath('div[2]/span[2]/a/i/text()') # //*[@id="c-112746244"]/i
    if len(comment) == 0:
      comment = html.xpath('div[3]/span[2]/a/i/text()')
    # classes = html.xpath('a[1]/@class')
    # writer.writerow((author[0].strip(), sex, rank[0].strip(), contents[0].strip(), great[0].strip(),
    #         comment[0].strip(), time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))))
    data_infos = [author[0].strip(), sex, rank[0].strip(), contents[0].strip(), great[0].strip(),
           comment[0].strip(), time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))]
    data_infos_list.append(data_infos)
def write_data(sheet, row):
  for data_infos in data_infos_list:
    j = 0
    for data in data_infos:
      sheet.write(row, j, data)
      j += 1
    row += 1
if __name__ == '__main__':
  urls = ['https://www.qiushibaike.com/8hr/page/{}/'.format(num) for num in range(1, 14)]
  for url in urls:
    print(url)
    get_info(url)
    time.sleep(2)
  # 如果文件存在，则追加。如果文件不存在，则新建
  if os.path.exists(filename):
    # 打开excel
    rb = xlrd.open_workbook(filename, formatting_info=True) # formatting_info=True 保留原有字体颜色等样式
    # 用 xlrd 提供的方法获得现在已有的行数
    rn = rb.sheets()[0].nrows
    # 复制excel
    wb = copy(rb)
    # 从复制的excel文件中得到第一个sheet
    sheet = wb.get_sheet(0)
    # 向sheet中写入文件
    write_data(sheet, rn)
    # 删除原先的文件
    os.remove(filename)
    # 保存
    wb.save(filename)
  else:
    header = ['author', 'sex', 'rank', 'content', 'great', 'comment', 'time']
    book = xlwt.Workbook(encoding='utf-8')
    sheet = book.add_sheet('糗百')
    # 向 excel 中写入表头
    for h in range(len(header)):
      sheet.write(0, h, header[h])
    # 向sheet中写入内容
    write_data(sheet, 1)
    book.save(filename)

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

python+pytest接口自动化之session会话保持的实现
在接口测试的过程中，经常会遇到有些接口需要在登录的状态下才能请求，本文主要介绍了python+pytest接口自动化之session会话保持的实现，感兴趣的可以了解一下
2022-06-06
用python写的一个wordpress的采集程序
在学习python的过程中，经过不断的尝试及努力，终于完成了第一个像样的python程序，虽然还有很多需要优化的地方，但是目前基本上实现了我所要求的功能,需要的朋友可以参考下
2016-02-02
使用 Python 和 OpenCV 实现摄像头人脸检测并截图功能
在现代应用中,人脸检测是一项非常重要的技术,广泛应用于安全监控、身份验证等领域,本文详细介绍了如何使用 Python 和 OpenCV 库实现摄像头人脸检测并截图,并通过具体的代码示例展示了整个过程,感兴趣的朋友一起看看吧
2024-11-11
Python 的counter()函数解析与示例详解
在 Python 中, collections 模块提供了 Counter 类,用于计算可迭代对象中元素的数量, Counter 是一个字典的子类,它以元素作为键,以元素出现的次数作为值进行计数,本文给大家介绍Python 的counter（）函数,感兴趣的朋友一起看看吧
2023-08-08
Python爬虫,获取,解析,存储详解
这篇文章主要介绍了Python爬虫获取、解析,获数据操作,其中代码描述非常详细，需要的朋友可以参考下，希望能够给你带来帮助
2021-10-10
深入浅析Python中的迭代器
迭代器是实现了迭代器协议的类对象，迭代器协议规定了迭代器类必需定义__next()__方法。这篇文章主要介绍了Python中的迭代器,需要的朋友可以参考下
2019-06-06
Python数据分析处理(三)--运动员信息的分组与聚合
这篇文章主要介绍了Python数据清洗与处理运动员信息的分组与聚合，根据Python数据清洗与处理的相关资料展开运动员信息的分组与聚合的文章内容,需要的朋友可以参考一下
2021-12-12
python实现自动化报表功能(Oracle/plsql/Excel/多线程)
这篇文章主要介绍了python实现自动化报表(Oracle/plsql/Excel/多线程)的相关知识，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-12-12
python全局变量引用与修改过程解析
这篇文章主要介绍了python全局变量引用与修改过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-01-01
Python selenium的安装和下载谷歌浏览器镜像驱动
Selenium是一个用于web自动化测试的框架，在使用Ajax请求数据的页面中，会出现 sign ,token等密钥，借助使用Selenium框架来实现数据爬取很不错，本文给大家介绍Python selenium的安装和下载谷歌浏览器镜像驱动,需要的朋友可以参考下
2022-11-11

Python实现爬虫抓取与读写、追加到excel文件操作示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具