教你用Python实现自动提取并收集信息的功能

 更新时间:2021年05月18日 14:19:51   作者:冷淡的蛋黄酱  
今天教大家怎么用Python实现自动提取并收集信息的功能,文中介绍的非常详细,有很多代码示例,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下

一、简介

  • 本功能目的在于提取收据/发票上的信息,用机器代替人的方式,提高工作效率
  • 实现方式是通过cv2模块截取需要的信息,调用百度的api文字识别接口

在这里插入图片描述

二、代码实现

1.导入需要的库,包括百度的api接口跟cv2图像截图图库

import cv2
from aip import AipOcr

# 读取图片,利用imshow显示图片
pic = cv2.imread(r'Y:\cut\img1.png')
pic = cv2.resize(pic,None,fx = 0.5, fy = 0.5)
cv2.imshow('img',pic)
cv2.waitKey(0)

2.截取图片,获取需要的信息,包括以下信息

  • 时间Time
  • 商家business
  • 商品goods
  • 价格money
  • 单号num
# 删除不必要的部分
img = pic[210:500, 100:580]

# 截取各部分的文字
time = pic[400:430, 100:580]
business = pic[370:400, 100:580]
goods = pic[350:380, 100:580]
money = pic[210:300, 100:580]
num = pic[460:500, 100:580]
# 查看截取的部分是否合适

gener_name = ['time','business','goods','money','num']
excel_data = {}
pd_columns = ["a","b","c","d","e"] # 标题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.定义函数将截取好的图片另存到文件夹

def shotcut_image(args):
    for index in gener:
        cv2.imwrite('image/{}.png'.format(args), img)

4.调用百度api接口,实现文字识别

# 导入api
AppID = '24177719'
API_Key = 'p8skmRYfHGoVGR4UU03Q5jiM'
Secret_Key = 'dyM0tzSILBZu9CFqZ7IkjWwECGaws4xo'

cilent = AipOcr(AppID,API_Key,Secret_Key)

def get_words(img_name):
    with open('image/{}.png'.format(img_name), 'rb') as f:
        result = cilent.basicAccurate(f.read())
        return result

5.最后将信息转为Dataframe,利用pandas的to_exccel功能,将数据放到excel里面

def convert_to_dataframe(words):
    # 构建dataframe
    result = words['words_result']
    for word in result:
        excel_data.setdefault('a', []).append(word['words'])

# 将所有words读取后,取出语句存入excel
def convert_to_excel():
    frame = DataFrame(excel_data, columns=pd_columns)
    # todo 表头需要额外处理,这里指定不设置表头
    frame.to_excel('out.xls',index=False, header=False)

在这里插入图片描述

到此这篇关于教你用Python实现自动提取并收集信息的功能的文章就介绍到这了,更多相关Python自动提取收集信息功能内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python MongoDB 插入数据时已存在则不执行,不存在则插入的解决方法

    Python MongoDB 插入数据时已存在则不执行,不存在则插入的解决方法

    这篇文章主要介绍了Python MongoDB 插入数据时已存在则不执行,不存在则插入的解决方法,结合实例形式分析了Python基于日志判断数据是否已经插入的相关操作技巧,需要的朋友可以参考下
    2019-09-09
  • Django:使用filter的pk进行多值查询操作

    Django:使用filter的pk进行多值查询操作

    这篇文章主要介绍了Django:使用filter的pk进行多值查询操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • python中decimal模块的具体使用

    python中decimal模块的具体使用

    本文主要介绍了python中decimal模块的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • Python 使用tempfile包轻松无痕的运行代码

    Python 使用tempfile包轻松无痕的运行代码

    大家好,我们知道软件运行过程中一般会在指定位置生成临时文件,这些资源不要轻易删除,可能是过程文件,定时清理是必要的,今天给大家分享一款工具:tempfile,喜欢本文点赞支持,欢迎收藏学习
    2021-11-11
  • 谨慎使用Python进行矩阵计算解析

    谨慎使用Python进行矩阵计算解析

    这篇文章主要介绍了使用Python进行矩阵计算原理解析,真正的单位矩阵,只有对角线元素为1,其他元素为0,用 np.identity(N) 生成单位矩阵,需要的朋友可以参考下
    2023-08-08
  • 利用Python操作MongoDB数据库的详细指南

    利用Python操作MongoDB数据库的详细指南

    MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,下面这篇文章主要给大家介绍了关于利用Python操作MongoDB数据库的相关资料,需要的朋友可以参考下
    2022-06-06
  • 如何在Django项目中引入静态文件

    如何在Django项目中引入静态文件

    这篇文章主要介绍了如何在Django项目中引入静态文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python中 * 号的用法总结

    Python中 * 号的用法总结

    Python中的 *号是一个特殊的符号,在其他编程语言中,它最广为人知的用途就是作为乘法运算的符号,本文总结了Python中*号的所有用途,希望对大家有所帮助
    2023-11-11
  • python matplotlib实现双Y轴的实例

    python matplotlib实现双Y轴的实例

    今天小编就为大家分享一篇python matplotlib实现双Y轴的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • python聊天室(虽然很简洁,但是可以用)

    python聊天室(虽然很简洁,但是可以用)

    这篇文章主要为大家详细介绍了python实现多人聊天室,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08

最新评论