Python 使用xlwt模块将多行多列数据循环写入excel文档的操作

 更新时间:2020年11月10日 08:44:10   作者:Quincy379  
这篇文章主要介绍了Python 使用xlwt模块将多行多列数据循环写入excel文档的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

我就废话不多说了,大家还是直接看代码吧~

#!/usr/bin/python
# -*- coding: utf-8 -*-

import xlwt
import re

def host_regex(dataline):
 host_regex = r"<host>(.*?)</host>"
 host = re.findall(host_regex, dataline)
 if host:
  return host[0]

def ip_regex(dataline):
 ip_regex = r"<ip>(.*?)</ip>"
 ip = re.findall(ip_regex, dataline)
 if ip:
  return ip[0]

with open("zbx_export_hosts.xml", "r", encoding="utf8") as f:
 lines = f.readlines()
 alldatas = []
 hostlist = []
 iplist = []
 for line in lines:
  host = host_regex(line)
  ip = ip_regex(line)

  if host is not None:
   hostlist.append(host)
  if ip is not None:
   iplist.append(ip)
 hosts_ip = []
 # 构造数据结构,形如:[[a,b],[c,d],...]
 multi_list = map(list, zip(hostlist, iplist))
 for multi in multi_list:
  hosts_ip.append(multi)
 workbook = xlwt.Workbook()
 worksheet = workbook.add_sheet('test')
 # 关键代码
 for hi in enumerate(hosts_ip):
  for num in range(len(hi[1])):
   # 行、列、值
   worksheet.write(hi[0], num, hi[1][num])

 workbook.save('excelwrite.xls')

PS:其实有两行代码冗余,就不删了!

补充知识:通过python写入xlsx大量数据问题简述

以前批处理生成数据文件都是通过c程序直接按照逗号分隔方式写文本文件以csv保存的。但是由于有些处理的数据表直接给业务人员看,业务人员习惯使用xls,因此提了些需求改造,对于一些小于100w的数据均要求改为xlsx文件格式的报表。

考虑报表文件数据处理便捷,因此决定用python实现,最初使用了openpyxl库,这个python库拥有非常强大的xlsx的读写api,能够很方便的实现读写。但是在实际使用中发现在处理较大行数的xlsx时,占用内存非常严重,8个字段50w行数据在运行中内存高达10G,这不是我们应用服务器能够接受的范围。

因此寻求改善,在网上了解后,发现创建xlsx表时,指定write_only参数是openpyxl提供的大数据写入解决方案,以下摘自官网范例,在选择了此参数后,无法通过ws.cell(row=i, column=j).value = ? 的方式复制,只能通过append的方式追加行。关于设置只写cell设置样式,可以直接查看官网

>>> from openpyxl import Workbook
>>> wb = Workbook(write_only=True)
>>> ws = wb.create_sheet()
>>>
>>> # now we'll fill it with 100 rows x 200 columns
>>>
>>> for irow in range(100):
...  ws.append(['%d' % i for i in range(200)]) #可以先将一行的数据写在一个list中,直接ws.append(list)
>>> # save the file
>>> wb.save('new_big_file.xlsx') # doctest: +SKIP

不过仅仅按上述范例修改write_only跑数时发现内存占用并没有缓解,再仔细阅读官网说明时才发现这么一句话“When you want to dump large amounts of data make sure you have lxml installed.”原来在openpyxl安装时,并没有把lxml作为强依赖,只是一个可选包,然后查实发现确实服务器上并没有安装lxml包。

于是与为了解决这个问题先在测试环境上安装lxml,安装过程也不是很顺利。

首先先要装libxml2以及libxslt,因为没有root权限,均为源码安装,且只能安装在用户目录。需要注意的是libxml2在安装时需要--with-python='python安装目录',libxslt安装的时候需要指定libxml2安装目录。

尤其最后的lxml安装也是坑挺多的,主要是指定libxml2和libxslt,安装lxml时先python3 setup.py build_ext -i -I${libxml2includepath} -L${libxml2libpath} -I${libxsltincludepath} -L${libxsltlibpath} ,再python3 setup.py install。

全部安装完之后,确实openpyxl写xlsx不再增加内存,先在tmp目录一个临时文件中写,待调用save方法时,保存到正式文件。

此外在这个问题解决中,还了解到writexlsx库也可以处理大文件xlsx的写入,并且安装没有这么多的依赖,其实还是非常推荐,也很简介,官网有介绍

操作大文件时指定{'constant_memory': True}即可。

filename = 'test.xlsx'
wb = xlsxwriter.Workbook(filename, {'constant_memory': True})
ws = wb.add_worksheet('大文件')
i = 0
data= []
data.append('中文')
data.append(1323)
data.append('abc')
ws.write_row(i, 0, data)
i = i + 1
wb.close() #直接关闭即可,不需要额外save

以上这篇Python 使用xlwt模块将多行多列数据循环写入excel文档的操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Flask之闪现flash原理及使用

    Flask之闪现flash原理及使用

    Flask中的闪现是一种在请求之间传递消息的机制,本文就来介绍一下Flask之闪现flash原理及使用,具有一定的参考价值,感兴趣的可以了解一下
    2023-12-12
  • Python排序算法之冒泡排序

    Python排序算法之冒泡排序

    我们在编写代码时,经常需要对一些序列做一些排序,排序的方法很多,下面我们讲一下常用的冒泡排序法。需要的朋友可以参考下
    2023-01-01
  • python PyQt5中单行文本输入控件QLineEdit用法详解

    python PyQt5中单行文本输入控件QLineEdit用法详解

    在PyQt5的GUI编程中,QLineEdit控件是一个用于输入和编辑单行文本的部件,它提供了丰富的功能和灵活性,可以轻松地实现用户输入的捕获、验证和格式化等功能,本文将通过实际案例详细介绍QLineEdit控件的常用方法,需要的朋友可以参考下
    2024-08-08
  • Python通过matplotlib画双层饼图及环形图简单示例

    Python通过matplotlib画双层饼图及环形图简单示例

    这篇文章主要介绍了Python通过matplotlib画双层饼图及环形图简单示例,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • PyTorch中torch.utils.data.DataLoader实例详解

    PyTorch中torch.utils.data.DataLoader实例详解

    torch.utils.data.DataLoader主要是对数据进行batch的划分,下面这篇文章主要给大家介绍了关于PyTorch中torch.utils.data.DataLoader的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • Python操作SQLite简明教程

    Python操作SQLite简明教程

    这篇文章主要介绍了Python操作SQLite简明教程,简单明了的入门教程,包含连接、建表、增删修查等例子,需要的朋友可以参考下
    2014-07-07
  • 全面剖析Python的Django框架中的项目部署技巧

    全面剖析Python的Django框架中的项目部署技巧

    这篇文章主要全面剖析了Python的Django框架的部署技巧,包括Fabric等自动化部署和建立单元测试等方面,强烈推荐!需要的朋友可以参考下
    2015-04-04
  • 利用pyproj将经纬度投影为平面坐标以及地理坐标系背景知识解读

    利用pyproj将经纬度投影为平面坐标以及地理坐标系背景知识解读

    这篇文章主要介绍了利用pyproj将经纬度投影为平面坐标以及地理坐标系背景知识解读,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python 爬虫学习笔记之多线程爬虫

    Python 爬虫学习笔记之多线程爬虫

    本文给大家介绍的是python基于XPath实现多线程爬虫的实例以及XPath的介绍安装和简单用法,非常的细致,有需要的小伙伴可以参考下
    2016-09-09
  • 详谈python3 numpy-loadtxt的编码问题

    详谈python3 numpy-loadtxt的编码问题

    下面小编就为大家分享一篇详谈python3 numpy-loadtxt的编码问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论