python 全角半角互换的实现示例

 更新时间:2022年03月29日 14:49:42   作者:王大呀呀  
角、半角的的不一致会导致信息抽取不一致,本文主要介绍了python 全角半角互换的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

在自然语言处理过程中,全角、半角的的不一致会导致信息抽取不一致,因此需要统一。

有规律(不含空格):

全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)
半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)

特例:

空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)

除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角 + 0x7e= 全角),所以可以直接通过用+-法来处理非空格数据,对空格单独处理。

注:

1. 中文文字永远是全角,只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角,占半个汉字的位置叫半角。

2. 引号在中英文、全半角情况下是不同的

示例

# 全角转半角
def strQ2B(ustring):
    ss = []
    for s in ustring:
        rstring = ""
        for uchar in s:
            inside_code = ord(uchar)
            if inside_code == 12288:  
                inside_code = 32
            elif (inside_code >= 65281 and inside_code <= 65374):   
                inside_code -= 65248
            rstring += chr(inside_code)
        ss.append(rstring)
    return ''.join(ss)

# 半转全角
def strB2Q(ustring):
    ss = []
    for s in ustring:
        rstring = ""
        for uchar in s:
            inside_code = ord(uchar)
            if inside_code == 32:
                inside_code = 12288
            elif (inside_code >= 33 and inside_code <= 126): 
                inside_code += 65248
            rstring += chr(inside_code)
        ss.append(rstring)
    return ''.join(ss)


if __name__ == '__main__':
    b = strQ2B('王大AA')
    print(b)
    a = strB2Q("王大AB")
    print(a)

库函数说明

chr()函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符。
unichr()跟它一样,只不过返回的是Unicode字符。

ord()函数是chr()函数(对于8位的ASCII字符串)或unichr()函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值。

到此这篇关于python 全角半角互换的实现示例的文章就介绍到这了,更多相关python 全角半角互换内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 浅谈python多进程共享变量Value的使用tips

    浅谈python多进程共享变量Value的使用tips

    今天小编就为大家分享一篇浅谈python多进程共享变量Value的使用tips,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • pandas数据拼接的实现示例

    pandas数据拼接的实现示例

    这篇文章主要介绍了pandas数据拼接的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • Python如何获取pid和进程名字

    Python如何获取pid和进程名字

    这篇文章主要介绍了Python如何获取pid和进程名字的方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-09-09
  • Python在不同场景合并多个Excel的方法

    Python在不同场景合并多个Excel的方法

    这篇文章主要介绍了Python在不同场景合并多个Excel的方法,文章围绕主题总共分享了三种方法,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • python 集合set中 add与update区别介绍

    python 集合set中 add与update区别介绍

    这篇文章主要介绍了python 集合set中 add与update区别介绍,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • python字典序问题实例

    python字典序问题实例

    这篇文章主要介绍了python字典序问题,是字符串操作一个比较典型的应用,需要的朋友可以参考下
    2014-09-09
  • python网络编程之读取网站根目录实例

    python网络编程之读取网站根目录实例

    这篇文章主要介绍了python网络编程之读取网站根目录实例,以quux.org站根目录为例进行了实例分析,代码简单易懂,需要的朋友可以参考下
    2014-09-09
  • Python3多线程详解

    Python3多线程详解

    使用多线程,可以同时进行多项任务,可以使用户界面更友好,还可以后台执行某些用时长的任务,同时具有易于通信的优点。python3中多线程的实现使用了threading模块,它允许同一进程中运行多个线程,本文介绍的非常详细,,需要的朋友可以参考下
    2023-05-05
  • python 初始化一个定长的数组实例

    python 初始化一个定长的数组实例

    今天小编就为大家分享一篇python 初始化一个定长的数组实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python中关于面向对象中继承的详细讲解

    Python中关于面向对象中继承的详细讲解

    面向对象编程 (OOP) 语言的一个主要功能就是“继承”。继承是指这样一种能力:它可以使用现有类的所有功能,并在无需重新编写原来的类的情况下对这些功能进行扩展
    2021-10-10

最新评论