java实现字符与Unicode码转换(附源码)

更新时间：2025年07月08日 10:24:34 作者：Katie。

在 Java 开发中,经常需要在字符（char 或 String）与其对应的Unicode 码点（int）之间进行相互转换,下面小编就来和大家详细介绍一下具体实现方法吧

一、项目背景详细介绍

在 Java 开发中，经常需要在字符（char 或 String）与其对应的Unicode 码点（int）之间进行相互转换，以满足以下场景：

文本处理：在处理多语言文本时，需要获得字符的 Unicode 码点来判断字符类别或进行编码转换；
编码调试：调试乱码问题时，通过打印字符的码点及其十六进制值，定位问题字符；
安全过滤：对输入字符按 Unicode 区间分类（如中文、Emoji、特殊符号）实现过滤或转义；
工具开发：编写字符检索、正则可视化、字体测试等工具，需要显示字符串中每个字符的码点；
协议与数据交换：在协议设计或二进制数据处理中，需要将字符转换为固定宽度的 Unicode 编码。

因此，提供一套简洁易用的 Java 工具，以便在字符↔码点、码点↔Unicode 转义序列之间互转，对于提高开发效率和保证编码安全具有重要意义。

二、项目需求详细介绍

1.字符到码点

提供方法将单个 char 或 String 中的每个字符，转换为对应的 Unicode 码点（int）；
以十进制、十六进制（0xXXXX）或 Unicode 转义形式（\uXXXX）输出。

2.码点到字符

提供方法将给定十进制或十六进制码点，转换为对应的 char；
对超出 BMP（基本多文种平面，>0xFFFF）的码点，支持 Character.toChars(int) 返回 UTF-16 代理对。

3.字符串编码/解码

将整段字符串转为一串 \uXXXX 格式的转义序列；
将含有 Unicode 转义的字符串（如 "\\u4E2D\\u6587"）解析还原为原始字符。

4.易用 API

工具类 UnicodeUtils：

List<Integer> toCodePoints(String text);
String toHexCodes(String text);
String toUnicodeEscapes(String text);
String fromUnicodeEscapes(String escapes);
char fromCodePoint(int codePoint);

5.边界与错误处理

对非法转义序列抛出明确异常或跳过；
对超出 Character.MAX_CODE_POINT 的码点校验并提示。

6.性能与线程安全

工具方法无共享可变状态，可安全并发调用；
对大文本批量转换时，性能应在可接受范围。

三、相关技术详细介绍

1.Java 字符与码点 API

char 存储 UTF-16 单元，范围 0x0000–0xFFFF；
int codePoint = text.codePointAt(index) 获取码点；
int[] cps = text.codePoints().toArray() 批量获取；
char[] chars = Character.toChars(codePoint) 处理代理对。

2.字符串转义与正则

Unicode 转义格式 \uXXXX，16 进制 4 位；
使用正则 \\\\u([0-9A-Fa-f]{4}) 匹配并替换。

3.错误与异常

非法十六进制字符需捕获 NumberFormatException；
未匹配的转义序列可按原文保留或抛 IllegalArgumentException。

4.性能考虑

使用 StringBuilder 进行拼接，避免字符串大量中间创建；
对流式 API（codePoints(), mapToObj）处理大文本更直观。

四、实现思路详细介绍

1.提取码点

toCodePoints(String)：遍历 text.codePoints()，收集至 List<Integer>；

toHexCodes：在 toCodePoints 基础上，将每个 int 格式化为 String.format("0x%04X", cp)。

2.生成转义序列

toUnicodeEscapes(String)：对每个码点，若 <0x10000 则 \uXXXX，否则先 toChars 得到代理对，再分别转义。

3.解析转义

fromUnicodeEscapes(String)：使用正则查找 \\uXXXX，对每个匹配组 XXXX 调用 Integer.parseInt(...,16) 转为 char，替换原文；

4.单点转换

fromCodePoint(int)：校验范围后返回 Character.toChars(codePoint)[0] 或代理对组合。

/*
 * =====================================================
 * File: UnicodeUtils.java
 * 工具类：字符 ↔ Unicode 码点 转换与转义
 * =====================================================
 */
package com.example.unicode;

import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.stream.Collectors;

public final class UnicodeUtils {
    private static final Pattern UNICODE_ESCAPE = Pattern.compile("\\\\u([0-9A-Fa-f]{4})");

    private UnicodeUtils() { /* 禁止实例化 */ }

    /**
     * 将字符串拆分为码点列表
     */
    public static List<Integer> toCodePoints(String text) {
        if (text == null) return Collections.emptyList();
        return text.codePoints()
                   .boxed()
                   .collect(Collectors.toList());
    }

    /**
     * 将字符串转换为十六进制码点表示，如 "0x4E2D 0x6587"
     */
    public static String toHexCodes(String text) {
        return toCodePoints(text).stream()
            .map(cp -> String.format("0x%04X", cp))
            .collect(Collectors.joining(" "));
    }

    /**
     * 将字符串编码为 Unicode 转义序列，如 "\\u4E2D\\u6587"
     */
    public static String toUnicodeEscapes(String text) {
        if (text == null) return "";
        StringBuilder sb = new StringBuilder();
        for (int cp : text.codePoints().toArray()) {
            if (cp <= 0xFFFF) {
                sb.append(String.format("\\u%04X", cp));
            } else {
                // 代理对
                char[] surrogates = Character.toChars(cp);
                sb.append(String.format("\\u%04X", (int) surrogates[0]));
                sb.append(String.format("\\u%04X", (int) surrogates[1]));
            }
        }
        return sb.toString();
    }

    /**
     * 将含有 Unicode 转义序列的字符串还原
     */
    public static String fromUnicodeEscapes(String escapes) {
        if (escapes == null) return "";
        Matcher m = UNICODE_ESCAPE.matcher(escapes);
        StringBuffer sb = new StringBuffer();
        while (m.find()) {
            String hex = m.group(1);
            int cp = Integer.parseInt(hex, 16);
            m.appendReplacement(sb, new String(Character.toChars(cp)));
        }
        m.appendTail(sb);
        return sb.toString();
    }

    /**
     * 从单个码点构造字符（仅 BMP）
     */
    public static char fromCodePoint(int codePoint) {
        if (codePoint < Character.MIN_CODE_POINT || codePoint > Character.MAX_CODE_POINT) {
            throw new IllegalArgumentException(
                "码点超出范围: " + codePoint);
        }
        if (codePoint <= 0xFFFF) {
            return (char) codePoint;
        }
        // 非 BMP 码点，返回第一个代理项
        return Character.toChars(codePoint)[0];
    }
}

代码详细解读

1.toCodePoints(String)

使用 String.codePoints() 获取 UTF-16 编码下的所有码点，装箱为 List<Integer> 返回。

2.toHexCodes(String)

基于码点列表，将每个码点格式化为 "0x%04X" 并以空格分隔，便于调试查看。

3.toUnicodeEscapes(String)

遍历每个码点：若在 BMP（≤ 0xFFFF），直接生成 \uXXXX；
若为辅助平面码点（> 0xFFFF），使用 Character.toChars 生成代理对（两个 char），分别转义。

4.fromUnicodeEscapes(String)

通过正则 \\u([0-9A-Fa-f]{4}) 匹配所有转义子串；
对每一个四位十六进制数，解析为码点并转换为字符（支持代理对），替换进结果。

5.fromCodePoint(int)

校验码点范围，若在 BMP 区间则返回单个 char；如超出，则返回对应的第一个代理项（一般不建议仅取一半，使用 toChars 全面处理）。

项目详细总结

本工具类 UnicodeUtils 提供了字符 ↔ 码点及Unicode 转义的双向转换方法：

码点提取：通过 codePoints() 准确获取包括辅助平面字符在内的所有码点；
十六进制表示：将码点格式化为 0xXXXX 风格，便于调试与日志记录；
转义与反转义：支持将任意字符串编码为 \uXXXX 序列，并能精确还原回原始字符；
边界处理：对超出 BMP 的码点正确生成代理对转义，并在还原时支持解码。

项目常见问题及解答

为何要区分 BMP 与辅助平面？

Java char 为 UTF-16 单元，BMP 码点对应单个 char，辅助平面需使用代理对（两个 char）。

fromCodePoint 为什么只返回第一个代理项？

该方法示例仅展示如何校验并返回 char；如需全字符，应使用 Character.toChars 并处理完整 char[]。

转义序列中的大写 X 与小写 x 有区别？

Java 标准仅支持 \u 小写，后续的 4 位十六进制不区分大小写。

非法转义序列如何处理？

本实现只替换匹配的合法 \uXXXX，其它内容保留原文；若需严格校验，可在替换后检查剩余反斜杠。

性能瓶颈在哪里？

正则替换和流式码点处理会在大文本中产生较多对象，可考虑复用 Matcher 或使用低级循环优化。

扩展方向与性能优化

全代理对支持

改进 fromCodePoint 返回完整 String，而非单个 char，确保辅助平面字符完整；

并行流处理

对超大文本可用 text.codePoints().parallel().mapToObj(...) 并行转换，提升吞吐；

自定义转义格式

支持 &#xXXXX;、&#DDDD; HTML/XML 风格的 Unicode 表示；

API 丰富

增加 toDecimalCodes 输出十进制码点列表；

增加 escapeNonAscii 仅转义非 ASCII 字符。

工具集成

将该工具打包为 CLI 应用，或集成到 Web UI 前端，实时显示字符与码点对应关系。

到此这篇关于java实现字符与Unicode码转换(附源码)的文章就介绍到这了,更多相关java字符与Unicode码转换内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Spring MVC 拦截器实现代码
本篇文章主要介绍了Spring MVC 拦截器的相关资料,具有一定的参考价值，感兴趣的小伙伴们可以参考一下。
2017-02-02
员工管理系统java版
这篇文章主要为大家详细介绍了java版的员工管理系统，，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-11-11
如何在 Java 中利用 redis 实现 LBS 服务
基于位置的服务，是指通过电信移动运营商的无线电通讯网络或外部定位方式，获取移动终端用户的位置信息，在GIS平台的支持下，为用户提供相应服务的一种增值业务。下面我们来一起学习一下吧
2019-06-06
详解如何给SpringBoot部署的jar包瘦身
这篇文章主要介绍了如何给SpringBoot部署的jar包瘦身，如今迭代发布是常有的事情，每次都上传一个如此庞大的文件，会浪费很多时间，接下来小编就以一个小项目为例，来演示如何给jar包瘦身,需要的朋友可以参考下
2023-07-07
Java提效神器Stream的一些冷门技巧汇总
这篇文章主要给大家介绍了关于Java提效神器Stream的一些冷门技巧,Stream是java对集合操作的优化,相较于迭代器,使用Stream的速度非常快,并且它支持并行方式处理集合中的数据,默认情况能充分利用cpu的资源,需要的朋友可以参考下
2021-07-07
理解Java访问权限控制
这篇文章主要帮助大家深入的理解Java访问权限控制，为何需要访问控制权限，本文给出了解释，感兴趣的小伙伴们可以参考一下
2016-02-02
logback日志控制服务器日志输出过程
文章介绍了SpringBoot中Logback日志配置方法,涵盖默认依赖、YAML/XML配置方式、MDC上下文信息应用、Linux部署注意事项及常见问题解决方案,重点强调日志格式统一处理与权限配置
2025-07-07
Java面试Logback打印日志如何获取当前方法名称题解
这篇文章主要为大家介绍了Java面试Logback打印日志如何获取当前方法名称题解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-11-11
Springboot自动装配实现过程代码实例
这篇文章主要介绍了Springboot自动装配实现过程代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
Java滑动窗口算法题目练习(附详细图文及代码)
在数据处理和算法中,滑动窗口是一种常见的技术,用于解决一些数组或字符串相关的问题,这篇文章主要介绍了Java滑动窗口算法题目练习的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
2025-10-10