如何利用Python实现一个论文降重工具

 更新时间:2021年07月09日 11:51:33   作者:librauee  
文章去重(或叫网页去重)是根据文章(或网页)的文字内容来判断多个文章之间是否重复,下面这篇文章主要给大家介绍了关于利用Python实现论文降重工具的相关资料,需要的朋友可以参考下

前言

时值毕业季,有不少小伙伴深受论文查重的困扰。因此我便想到做一个简单的自动去重的工具,先看看效果,我们再对原理或是代码实现做进一步的分析。

首先需要输入appid以及key,这些可以在百度翻译开放平台申请一个账号,可以免费申请一个账号。接着将需要进行降重的文本内容复制到相应的输入框内,点击开始按钮,即可输出不同但意思相近的语句,即达到降重去重的作用。点击复制按钮便可以将得到的新文本复制到剪贴板上,点击清楚按钮可以重新输入需要降重的文本,并且循环往复地进行。

去重原理

论文查重的粒度是句子,两个句子的相似度主要取决于句子包含哪些词,以及词在句子中的位置。句子相似度只是文字上的对比,不考虑语义上的相近。

正因如此,我们可以采取的措施便是变换句子结构,使用近似词替换。

为了完成这些句子的自动替换,从而达到降重的目的,这里很容易便想到利用不同语种之间的互相转换来生成新文本。比如在本工具中,我采用了中文→英文→韩文→中文的策略,你也可以采取更长的转换路径,但那样似乎会在很大程度上降低文本的可读性。

开放平台的使用

语句的翻译我采用了百度翻译开放平台的接口,简单地申请之后就可以获取每个月200万的免费字符翻译权限。

此API的接入方式略微有些麻烦,需要生成签名sign并且拼接完整的url。

def translate(q,lan_from,lan_to):
    url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'
    salt = random.randint(1, 65536)
    sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()
    params = {
        'from' :lan_from,
        'to' :lan_to,
        'salt' : salt,
        'sign' : sign,
        'appid' : appid,
        'q': q
    }
    r = requests.get(url,params=params)
    txt = r.json()
    if txt.get('trans_result', -1) == -1:
        print('ERROR Code:{}'.format(txt))
        return q
    return txt['trans_result'][0]['dst']

总结

在弄清楚原理以及API的调用方法之后,我们可以轻松地写出一个GUI界面,也就是这个降重工具。当然这个工具非常初级,大家可以进行更加全面的扩展。

到此这篇关于如何利用Python实现一个论文降重工具的文章就介绍到这了,更多相关Python论文降重工具内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django ORM 事务和查询优化的操作方法

    Django ORM 事务和查询优化的操作方法

    这篇文章主要介绍了Django ORM 事务和查询优化,包括事务操作、ORM 惰性查询及only与defer相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-09-09
  • Python类成员继承重写的实现

    Python类成员继承重写的实现

    这篇文章主要介绍了Python类成员继承重写的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • 详解python OpenCV学习笔记之直方图均衡化

    详解python OpenCV学习笔记之直方图均衡化

    本篇文章主要介绍了详解python OpenCV学习笔记之直方图均衡化,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-02-02
  • 利用Python代码实现数据可视化的5种方法详解

    利用Python代码实现数据可视化的5种方法详解

    在数据科学中,有多种工具可以进行可视化。下面这篇文章主要给大家介绍了关于利用Python代码实现数据可视化的5种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2018-03-03
  • python单机五子棋的代码实现示例

    python单机五子棋的代码实现示例

    五子棋是经典的棋牌类游戏,很多人都玩过,那么如何用Python实现五子棋呢,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-10-10
  • 使用Python实现在Word文档中进行邮件合并

    使用Python实现在Word文档中进行邮件合并

    邮件合并是现代办公中一项显著提升效率的技术,它巧妙地将大量个体数据与预设的文档模板相结合,实现了一次性批量生成定制化文档,下面我们就来看看如何使用Python实现在Word文档中进行邮件合并吧
    2024-04-04
  • Python中线程的MQ消息队列实现以及消息队列的优点解析

    Python中线程的MQ消息队列实现以及消息队列的优点解析

    消息队列(MQ,Message Queue)在消息数据传输中的保存作用为数据通信提供了保障和实时处理上的便利,这里我们就来看一下Python中线程的MQ消息队列实现以及消息队列的优点解析
    2016-06-06
  • 教你使用Pycharm配置远程Jupyter

    教你使用Pycharm配置远程Jupyter

    在pycharm里配置了远程的Python解释器,然后在使用过程中,发现pycharm原来是可以使用Jupyter的文件,而且还可以配置远程的Jupyter环境,今天试了一下,一开始还是走了一些坑,今天梳理一下,需要的朋友可以参考下
    2022-05-05
  • python实现马耳可夫链算法实例分析

    python实现马耳可夫链算法实例分析

    这篇文章主要介绍了python实现马耳可夫链算法的方法,实例分析了马耳可夫链算法的原理与实现技巧,需要的朋友可以参考下
    2015-05-05
  • python如何读写csv数据

    python如何读写csv数据

    这篇文章主要为大家详细介绍了python如何读写csv数据,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03

最新评论