Java字符串与正则表达式操作方法详解

 更新时间:2025年09月23日 09:46:34   作者:BeanInJ  
在Java编程中正则表达式是一个强大的工具,用于处理字符串和进行模式匹配,这篇文章主要介绍了Java字符串与正则表达式操作的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下

写在前面

1、String在java源码中是怎么实现的?

2、什么是正则表达式的DFA自动机和NFA自动机?

1、String

1.1、String底层实现

Java 6及以前版本,通过char数组,每个char占用两个字节,使得String能够很好地处理Unicode。

public final class String implements java.io.Serializable, Comparable<String>, CharSequence {  
    private final char[] value;  
    private int offset;  
    private int count;  
    // ...其他成员和方法  
}  

Java 7至Java 8版本,offset和count两个变量被移除,String.substring不再共享char[],解决内存可能泄漏问题。

public final class String implements java.io.Serializable, Comparable<String>, CharSequence {  
    private final char[] value;  
    // ...其他成员和方法  
}  

Java9开始,把char[]改成了byte[] + coder(编码标识)

1.2、str="abc"和new String(“abc”)的区别

  • str=“abc”
    会先检查"abc"在不在常量池,在就不创建了,直接拿引用
  • new String(“abc”)
    先将”abc“放入常量池,再将其引用传给new的String

1.3、使用+拼接字符串

使用+拼接字符串,代码编译后,会被替换成StringBuilder。并且每+的一个字符串都可能被new一个新的StringBuilder,所以建议少用+,直接用StringBuilder

1.4、如何使用String.intern节约内存

String a = new String(“a123”).intern();

当调用intern()时,会先查看常量池中是否已有字符串”a123“, 所以当多次用到”a123“时,使用String.intern不会再创建新的字符串,从而节约内存。

1.5、分割字符,split()和indexOf()用哪个

split()使用正则表达式实现,正则表达式性能是比较不稳定的。
indexOf()能分割时尽量用indexOf()

2、正则表达式

2.1、DFA和NFA

正则表达式引擎构造代价执行效率优势
NFA支持更多,如group、环视、占有有限量词
DFA

NFA 自动机回溯

str = "arrrc"
reg = "ar{1,3}c"

自动回溯会先匹配arrr,匹配到c,发现不是r,就回溯到最后一个r,用reg的c去继续匹配

2.2、怎么减少回溯?

1、贪婪模式

如上述例子就是贪婪模式

2、懒惰模式

str = "arrrc"
reg = "ar{1,3}?c"

懒惰模式会先匹配ar,发现已经有一个r了,就开始用c接着匹配

3、独占模式

str = "arrc"
reg = "ar{1,3}+rc"

独占模式会先匹配ar,发现已经有一个r了,就开始用rc接着匹配,不会回溯

下面这种独占模式会回溯

str = "arrc"
reg = "ar{1,3}+c"

独占模式会先匹配ar,发现已经有一个r了,就开始用c接着匹配,匹配失败回溯

总结:

1、少用贪婪模式,多用独占模式

2、减少分支选择,如将”(abcd|abef)“替换为”ab(cd|ef)“

3、减少捕获嵌套。

捕获组: 一个 ()里面的就是一个不获取

非捕获组:一个(?:EXP)就是一个非捕获组

str = "<input id=1>文本</input>"
reg = "(<input.*?)(.*?)(</input)"
# 上面reg包含了3个捕获组,所以如果输出捕获结果会有整个匹配到的内容+括号里面的,4组字符串

str = "<input id=1>文本</input>"
reg = "(?:<input.*?)(.*?)(?:</input)"
# 上面reg包含了1个捕获组,所以如果输出捕获结果会有整个匹配到的内容+捕获组括号里面的,2组字符串

到此这篇关于Java字符串与正则表达式操作的文章就介绍到这了,更多相关Java字符串与正则表达式内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 简单实现java数独游戏

    简单实现java数独游戏

    这篇文章主要教大家如何简单实现java数独游戏,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12
  • 关于JAVA8的 Stream学习

    关于JAVA8的 Stream学习

    这篇文章主要介绍了JAVA8 Stream学习方法的相关资料,需要的朋友可以参考下面文章内容
    2021-09-09
  • AntDesign多环境配置启动过程详解

    AntDesign多环境配置启动过程详解

    这篇文章主要为大家介绍了AntDesign多环境配置启动过程详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11
  • Java Socket编程详解及示例代码

    Java Socket编程详解及示例代码

    本文主要讲解Java Socket编程,这里整理了详细的技术资料及简单的示例代码帮助大家学习参考,有需要的小伙伴可以参考下本文内容
    2016-09-09
  • Java实现四则混合运算代码示例

    Java实现四则混合运算代码示例

    这篇文章主要介绍了Java实现四则混合运算代码示例,文中展示了详细代码,具有一定参考价值,需要的朋友可以了解下。
    2017-10-10
  • java计算两个日期中间的时间

    java计算两个日期中间的时间

    这篇文章主要介绍了java计算两个日期中间的时间的相关资料,需要的朋友可以参考下
    2017-04-04
  • springboot集成PageHelper分页失效的原因及解决

    springboot集成PageHelper分页失效的原因及解决

    项目启动初期,在集成mybatis的分页插件,自定义封装了一个分页的工具类,方便后期项目的扩展,结果无法分页了,怎么设置搞都没办法正常分页,所以本文将给大家介绍一下springboot集成PageHelper分页失效的原因及解决,需要的朋友可以参考下
    2023-10-10
  • mybatis-plus中lambdaQuery()与lambdaUpdate()比较常见的使用方法总结

    mybatis-plus中lambdaQuery()与lambdaUpdate()比较常见的使用方法总结

    mybatis-plus是在mybatis的基础上做增强不做改变,简化了CRUD操作,下面这篇文章主要给大家介绍了关于mybatis-plus中lambdaQuery()与lambdaUpdate()比较常见的使用方法,需要的朋友可以参考下
    2022-09-09
  • java语言自行实现ULID过程底层原理详解

    java语言自行实现ULID过程底层原理详解

    这篇文章主要为大家介绍了java语言自行实现ULID过程底层原理详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-10-10
  • java中对list分页并显示数据到页面实例代码

    java中对list分页并显示数据到页面实例代码

    这篇文章主要介绍了java中对list分页并显示数据到页面实例代码,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-02-02

最新评论