教你用Python实现自动提取并收集信息的功能

 更新时间:2021年05月18日 14:19:51   作者:冷淡的蛋黄酱  
今天教大家怎么用Python实现自动提取并收集信息的功能,文中介绍的非常详细,有很多代码示例,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下

一、简介

  • 本功能目的在于提取收据/发票上的信息,用机器代替人的方式,提高工作效率
  • 实现方式是通过cv2模块截取需要的信息,调用百度的api文字识别接口

在这里插入图片描述

二、代码实现

1.导入需要的库,包括百度的api接口跟cv2图像截图图库

import cv2
from aip import AipOcr

# 读取图片,利用imshow显示图片
pic = cv2.imread(r'Y:\cut\img1.png')
pic = cv2.resize(pic,None,fx = 0.5, fy = 0.5)
cv2.imshow('img',pic)
cv2.waitKey(0)

2.截取图片,获取需要的信息,包括以下信息

  • 时间Time
  • 商家business
  • 商品goods
  • 价格money
  • 单号num
# 删除不必要的部分
img = pic[210:500, 100:580]

# 截取各部分的文字
time = pic[400:430, 100:580]
business = pic[370:400, 100:580]
goods = pic[350:380, 100:580]
money = pic[210:300, 100:580]
num = pic[460:500, 100:580]
# 查看截取的部分是否合适

gener_name = ['time','business','goods','money','num']
excel_data = {}
pd_columns = ["a","b","c","d","e"] # 标题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.定义函数将截取好的图片另存到文件夹

def shotcut_image(args):
    for index in gener:
        cv2.imwrite('image/{}.png'.format(args), img)

4.调用百度api接口,实现文字识别

# 导入api
AppID = '24177719'
API_Key = 'p8skmRYfHGoVGR4UU03Q5jiM'
Secret_Key = 'dyM0tzSILBZu9CFqZ7IkjWwECGaws4xo'

cilent = AipOcr(AppID,API_Key,Secret_Key)

def get_words(img_name):
    with open('image/{}.png'.format(img_name), 'rb') as f:
        result = cilent.basicAccurate(f.read())
        return result

5.最后将信息转为Dataframe,利用pandas的to_exccel功能,将数据放到excel里面

def convert_to_dataframe(words):
    # 构建dataframe
    result = words['words_result']
    for word in result:
        excel_data.setdefault('a', []).append(word['words'])

# 将所有words读取后,取出语句存入excel
def convert_to_excel():
    frame = DataFrame(excel_data, columns=pd_columns)
    # todo 表头需要额外处理,这里指定不设置表头
    frame.to_excel('out.xls',index=False, header=False)

在这里插入图片描述

到此这篇关于教你用Python实现自动提取并收集信息的功能的文章就介绍到这了,更多相关Python自动提取收集信息功能内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python对日志进行处理的实例代码

    python对日志进行处理的实例代码

    本篇文章给大家分享了关于python处理日志的方法以及相关实例代码,有兴趣的朋友们学习下。
    2018-10-10
  • Python实现多功能音乐播放器详解

    Python实现多功能音乐播放器详解

    这篇文章主要介绍了如何通过Python制作一个简易的音乐播放器,文中的示例代码讲解详细,对我们学习或工作有一定价值,需要的可以参考一下
    2022-02-02
  • Python如何显示所有汉字

    Python如何显示所有汉字

    这篇文章主要介绍了Python如何显示所有汉字问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-04-04
  • python中lambda函数详解及用法举例

    python中lambda函数详解及用法举例

    这篇文章主要给大家介绍了关于python中lambda函数详解及用法的相关资料,Lambda 函数是 Python中的匿名函数,有些人将它们简称为lambdas,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-11-11
  • PyQt5显示GIF图片的方法

    PyQt5显示GIF图片的方法

    今天小编就为大家分享一篇PyQt5显示GIF图片的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Django 过滤器汇总及自定义过滤器使用详解

    Django 过滤器汇总及自定义过滤器使用详解

    这篇文章主要介绍了Django 过滤器汇总及自定义过滤器使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Jmeter并发执行Python 脚本的完整流程

    Jmeter并发执行Python 脚本的完整流程

    这篇文章主要介绍了Jmeter并发执行 Python 脚本的问题详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • pycharm转移缓存目录的实现

    pycharm转移缓存目录的实现

    Pycharm在使用过程中,Pycharm会生成大量缓存文件,而这些缓存文件默认存储在C盘的用户目录里面,导致C盘空间被占用,本文主要介绍了pycharm转移缓存目录,感兴趣的可以了解一下
    2023-10-10
  • Python 调用GPT-3 API实现过程详解

    Python 调用GPT-3 API实现过程详解

    这篇文章主要为大家介绍了Python 调用GPT-3 API实现过程详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-02-02
  • 如何使用Python保存PPT中的形状为图像文件

    如何使用Python保存PPT中的形状为图像文件

    将PowerPoint演示文稿中的形状(幻灯片中的内容元素,包括文本框、图形、图片、图表等)保存为图片是方便内容跨平台分享和再利用的有效手段,本文将演示如何使用Python保存PowerPoint演示文稿中的形状为图像文件,需要的朋友可以参考下
    2024-10-10

最新评论