在任意字符集下正常显示网页的方法二(续)

 更新时间:2007年04月01日 00:00:00   作者:  
转:coolcode.cn
前几天写了一篇在任意字符集下正常显示网页的方法,里面介绍的很简单,就是把前128个字符以外的字符集都用 NCR 来表示,但是具体怎么转化我没有介绍,因为当时我觉得太简单了。但是后来发现有人问这个问题,这里就详细说明一下。
首先第一步是要把源字符集的字符串转化为 UTF-16 字符集,做这一步是因为 UTF-16 字符集中的每个字符都是两个字节,后面处理起来很容易,而如果在源字符集上直接做处理则很复杂。源字符集可以从原网页中的 meta 标签中获得,也可以单独指定,我的程序是让用户在表单中指定源字符集,因为我不能保证用户提交的文件就一定是 HTML 文件(其他文件也是可以的,比如这个 WordPress 的汉化包源文件是个 po 文件,它里面的内容也可以这样处理),而且即使是 HTML 文件,里面也不一定就有用于指定字符集的 meta 标签,所以通过表单单独指定字符集比较保险。你可能会觉得将一种字符集转化为另一种字符集很复杂,确实如此,如果自己来实现的话,确实非常麻烦,但是用 PHP 来做却很容易,因为它里面已经包含这样的函数了,你可以通过 iconv 函数很容易的来实现各种字符集之间的转化,如果你的机器上没有安装 iconv 扩展,你也可以使用 mb_convert_encoding 函数,如果 Multibyte String 扩展也没有安装,那就没办法了,因为你要自己实现那么多种编码的转化基本上是不可能的,除非你是顶级大牛!推荐使用 iconv,因为这个效率高,支持的字符集也更多。
做完上面那一步之后,接下来是以每两个字节为单位对字符串进行处理。这两个字节直接转化为数字就是 &#xxxxx; 中的 xxxxx,如果这个数字小于 128 就直接使用这个字符(注意这里就变成单字节了),否则就使用 &#xxxxx; 的形式。这里有一点要注意,就是当这个数字是 65279(16 进制的 0xFEFF)时,请把它忽略掉,因为这个是 Unicode 编码中的传输控制字符,而我们现在的字符串已经只有 iso-8859-1 编码中的前 128 个字符了,所以我们不需要它了。
好了,基本思路就是这样,下面是实现的程序:
下载: nochaoscode.php
复制代码 代码如下:

<?php 
function nochaoscode($encode, $str) { 
    $str = iconv($encode, "UTF-16BE", $str); 
    for ($i = 0; $i < strlen($str); $i++,$i++) { 
        $code = ord($str{$i}) * 256 + ord($str{$i + 1}); 
        if ($code < 128) { 
            $output .= chr($code); 
        } else if ($code != 65279) { 
            $output .= "&#".$code.";"; 
        } 
    } 
    return $output; 

?>

函数的参数中,$encode 是源字符集,$str 是需要进行转化的字符串。返回结果是转化以后字符串。
补充:今天 Legend 告诉我一种更简单的方法,就是直接利用 mb_convert_encoding 函数。因为 mb_convert_encoding 支持一种叫做 HTML-ENTITIES 的编码格式,也就是 NCR 编码。用它就更简单了。

相关文章

  • 浅析PHP开发规范

    浅析PHP开发规范

    本篇文章是小编为大家整理的关于PHP开发规范的相关内容,适合PHP初学者,一起参考下吧。
    2018-02-02
  • php HTML无刷新提交表单

    php HTML无刷新提交表单

    这篇文章主要介绍了php HTML无刷新提交表单,本文介绍了两种无刷新提交表单的方法,感兴趣的小伙伴们可以参考一下
    2016-04-04
  • php提示undefined index的几种解决方法

    php提示undefined index的几种解决方法

    虽然可以通过设置错误显示方式来隐藏这个提示,但是这样也有隐患,就是在服务器的日志中会记录这些提示,导致日志文件异常庞大
    2012-05-05
  • PHP 命令行工具 shell_exec, exec, passthru, system详细使用介绍

    PHP 命令行工具 shell_exec, exec, passthru, system详细使用介绍

    PHP 为执行外部命令提供大量函数,其中包括 shell_exec()、exec()、passthru() 和 system()。这些命令是相似的,但为您运行的外部程序提供不同的界面。
    2011-09-09
  • PHP中文竖排转换实现方法

    PHP中文竖排转换实现方法

    这篇文章主要介绍了PHP中文竖排转换实现方法,一般大家的阅读习惯是一行行浏览,很少使用竖排进行阅读,本文介绍了PHP实现中文竖排转换,感兴趣的小伙伴们可以参考一下
    2015-10-10
  • PHP计算字符串真正的宽度和高度像素(图片加文字水印示例)

    PHP计算字符串真正的宽度和高度像素(图片加文字水印示例)

    这篇文章通过给图片加文字水印示例来解释PHP计算字符串真正的宽度和高度像素的方法。计算字符串用strlen()只能得到字符串长度,不是宽高像素,而根据字体的大小和所用字体计算出的才是字符串真正的宽高像素。
    2023-02-02
  • php数组函数序列之array_search()- 按元素值返回键名

    php数组函数序列之array_search()- 按元素值返回键名

    array_search() 函数与 in_array() 一样,在数组中查找一个键值。如果找到了该值,匹配元素的键名会被返回。如果没找到,则返回 false
    2011-11-11
  • php中yii框架实例用法

    php中yii框架实例用法

    在本篇内容里小编给大家整理了一篇关于php中yii框架实例用法及相关知识点,有需要的朋友们可以学习下。
    2020-12-12
  • PHP中实现中文字符进制转换原理分析

    PHP中实现中文字符进制转换原理分析

    中文字符编码研究系列第四期,PHP实现中文字符进制转换原理分析,主要讨论中文汉字转换为十进制和十六进制的方法,并掌握转换原理应用于实际开发。本文以GBK编码字符为例,讨论GBK编码的字符转换原理
    2011-12-12

最新评论