使用java从乱码文本中解析出正确的文本

 更新时间:2014年04月09日 09:13:07   作者:  
这篇文章主要介绍了使用java从乱码文本中解析出正确的文本的方法,需要的朋友可以参考下

这是一个可以从乱码文本中得到正确的原始文本的程序,其基于的原理在于错误的编码往往导致位补充,因此正确的文本使用的字节数应该是最少的(之一)。


复制代码 代码如下:

package com.hongyuan.test;

import java.io.UnsupportedEncodingException;

/*
 * 这是一个可以从乱码文本中得到正确的原始文本的程序,其基于的原理在于错误的编码往往导致位补充,
 * 因此正确的文本使用的字节数应该是最少的(之一)。
 *
 * 如果你在测试此程序时,无法得到正确的文本,可能的原因如下:
 * 1.此程序仅能从一次错误编码文本中得到原始文本,无法从多次错误编码中恢复文本。
 * 2.有时错误的编码导致一些字符变为不可见字符,你可能没有把所有的乱码文本拷贝过来,从而导致位缺失。这种情况下无法恢复文本。
 * 3.原始文本是一个比较大的字符集,错误的编码使用小的字符集,那些在小字符集之外的字符信息丢失,无法从中解析正确的文本。
 * 4.恭喜你中奖了,有一些字符使用任何一种编码没有什么不同或者错误的编码没有导致位补充,那么我也无能为力了。(这种情况确实很少见)
 *
 * 注:程序中的乱码文本是将百度首页(utf-8)调整为gbk(显然会乱码)得到的,有兴趣的同志可以使用其他的乱码测试。有问题欢迎回复。
 */
public class CharSetTest {

 public static final String[] CHARSET_NAMES=new String[]{"ISO8859-1","GBK","UTF-8"};

 public static void main(String[] args) throws UnsupportedEncodingException {
  //乱码字符串
  String str="寰蒋鐧惧害鍏辨帹Windows XP鑱斿悎闃叉姢瑙e喅鏂规";

  int strLength=Integer.MAX_VALUE; //字符长度
  String newStr="";     //从乱码字符串分析出的字符串
  String srcCharSet="";    //当前乱码字符串编码
  String targetCharSet="";   //乱码字符串正确的编码

  //遍历可能的编码组合,从中造成编码长度最小的编码格式
  for(int i=0;i<CHARSET_NAMES.length;i++){
   for(int j=0;j<CHARSET_NAMES.length;j++){
    String temp=new String(str.getBytes(CHARSET_NAMES[i]),CHARSET_NAMES[j]);
    //System.out.println(temp);
    if(temp.length()<=strLength){
     strLength=temp.length();
     newStr=temp;
     srcCharSet=CHARSET_NAMES[i];
     targetCharSet=CHARSET_NAMES[j];
    }
   }
  }
  //输出查询到的编码及正确文本格式
  System.out.println(srcCharSet+"-->"+targetCharSet+":"+newStr);
 }

}

相关文章

  • java提取json中某个数组的所有值方法

    java提取json中某个数组的所有值方法

    下面小编就为大家分享一篇java提取json中某个数组的所有值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-03-03
  • JAVA Frame 窗体背景图片,首位相接滚动代码实例

    JAVA Frame 窗体背景图片,首位相接滚动代码实例

    这篇文章主要介绍了JAVA Frame 窗体背景图片,首位相接滚动代码示例,需要的朋友可以参考下复制代码
    2017-04-04
  • Spring之ShutDown Hook死锁现象解读

    Spring之ShutDown Hook死锁现象解读

    这篇文章主要介绍了Spring之ShutDown Hook死锁现象解读,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-04-04
  • mybatis中orderBy(排序字段)和sort(排序方式)引起的bug及解决

    mybatis中orderBy(排序字段)和sort(排序方式)引起的bug及解决

    这篇文章主要介绍了mybatis中orderBy(排序字段)和sort(排序方式)引起的bug,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-01-01
  • 浅析JDK和Tomcat的安装与配置方法

    浅析JDK和Tomcat的安装与配置方法

    这篇文章主要介绍了JDK和Tomcat的安装与配置方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧
    2018-12-12
  • Java调用第三方接口封装实现

    Java调用第三方接口封装实现

    本文主要介绍了Java调用第三方接口封装实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Java架构设计之六步拆解 DDD

    Java架构设计之六步拆解 DDD

    DDD(Domain-Driven Design 领域驱动设计)是由Eric Evans最先提出,目的是对软件所涉及到的领域进行建模,以应对系统规模过大时引起的软件复杂性的问题
    2022-02-02
  • spring MVC cors跨域实现源码解析

    spring MVC cors跨域实现源码解析

    本文主要介绍了spring MVC cors跨域实现源码解析。具有很好的参考价值,下面跟着小编一起来看下吧
    2017-02-02
  • MyBatis-Plus中实现自定义复杂排序逻辑的详细步骤

    MyBatis-Plus中实现自定义复杂排序逻辑的详细步骤

    这篇文章主要介绍了MyBatis-Plus中实现自定义复杂排序逻辑,通过使用MyBatis-Plus的QueryWrapper和SQL原始片段,我们可以灵活地实现复杂的数据排序逻辑,这种方法尤其适用于需要对数据进行特定规则排序的场景,需要的朋友可以参考下
    2024-07-07
  • springmvc的@Validated注解使用

    springmvc的@Validated注解使用

    这篇文章主要介绍了springmvc的@Validated注解使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12

最新评论