Ubuntu下使用python读取doc和docx文档的内容方法

 更新时间:2018年05月08日 09:05:31   作者:Nicholas_Wong  
今天小编就为大家分享一篇Ubuntu下使用python读取doc和docx文档的内容方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx 

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText) 

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output) 

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 用Python实现斐波那契(Fibonacci)函数

    用Python实现斐波那契(Fibonacci)函数

    这篇文章主要介绍了用Python实现斐波那契(Fibonacci)函数的相关资料,需要的朋友可以参考下
    2016-03-03
  • python利用winreg生成桌面路径及实现扫描二维码图片返回相关信息

    python利用winreg生成桌面路径及实现扫描二维码图片返回相关信息

    这篇文章主要介绍了python生成桌面路径及实现扫描二维码图片返回相关信息,winreg是python的一个标准库,用来对windows注册表的操作,更多相关内容需要的小伙伴可以参考一下
    2022-06-06
  • Python实现定时任务的九种方案总结

    Python实现定时任务的九种方案总结

    定时任务是编程中常见的需求,它可以按照预定的时间表执行特定的任务或操作,在Python中,有多种方法可以实现定时任务,下面小编就来和大家详细讲讲吧
    2023-11-11
  • Python构建区块链的方法详解

    Python构建区块链的方法详解

    区块链(Blockchain)是一种分布式账本(listributed ledger),它是一种仅供增加(append-only),内容不可变(immutable)的有序(ordered)链式数据结构,该数据结构由网络中的一系列节点共同维护,并且这些节点之间互不信任
    2023-02-02
  • 使用Python编写提取日志中的中文的脚本的方法

    使用Python编写提取日志中的中文的脚本的方法

    这篇文章主要介绍了使用Python编写提取日志中的中文的脚本的方法,该脚本包括过滤重复的字符行等功能,需要的朋友可以参考下
    2015-04-04
  • pytorch中with torch.no_grad():的用法实例

    pytorch中with torch.no_grad():的用法实例

    最近在看别人写的代码,遇到经常使用with torch.no_grad(),所以下面这篇文章主要给大家介绍了关于pytorch中with torch.no_grad():用法的相关资料,需要的朋友可以参考下
    2022-03-03
  • Flask框架学习笔记之模板操作实例详解

    Flask框架学习笔记之模板操作实例详解

    这篇文章主要介绍了Flask框架学习笔记之模板操作,结合实例形式详细分析了flask框架模板引擎Jinja2的模板调用、模板继承相关原理与操作技巧,需要的朋友可以参考下
    2019-08-08
  • Python针对给定列表中元素进行翻转操作的方法分析

    Python针对给定列表中元素进行翻转操作的方法分析

    这篇文章主要介绍了Python针对给定列表中元素进行翻转操作的方法,结合实例形式分析了Python针对列表元素基于切片及遍历输出两种翻转操作实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2018-04-04
  • 实现python namedtuple元类编程

    实现python namedtuple元类编程

    这篇文章主要为大家介绍了实现python namedtuple元类编程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • 如何在scrapy中捕获并处理各种异常

    如何在scrapy中捕获并处理各种异常

    这篇文章主要介绍了如何在scrapy中捕获并处理各种异常,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09

最新评论