C++使用WideCharToMultiByte函数生成UTF-8编码文件的方法

更新时间：2016年06月24日 16:07:46 作者：pizzq

用来映射Unicode字符串的WideCharToMultiByte函数经常被用来进行UTF-8编码的转换,以下我们将看到C++使用WideCharToMultiByte函数生成UTF-8编码文件的方法,首先先来对WideCharToMultiByte作一个详细的了解:

WideCharToMultiByte函数映射一个unicode字符串到一个多字节字符串。

函数原型：

int WideCharToMultiByte

UINT CodePage, //指定执行转换的代码页
DWORD dwFlags, //允许你进行额外的控制，它会影响使用了读音符号（比如重音）的字符
LPCWSTR lpWideCharStr, //指定要转换为宽字节字符串的缓冲区
int cchWideChar, //指定由参数lpWideCharStr指向的缓冲区的字符个数
LPSTR lpMultiByteStr, //指向接收被转换字符串的缓冲区
int cchMultiByte, //指定由参数lpMultiByteStr指向的缓冲区最大值
LPCSTR lpDefaultChar, //遇到一个不能转换的宽字符，函数便会使用pDefaultChar参数指向的字符
LPBOOL pfUsedDefaultChar //至少有一个字符不能转换为其多字节形式，函数就会把这个变量设为TRUE

参数：
CodePage：指定执行转换的代码页，这个参数可以为系统已安装或有效的任何代码页所给定的值。你也可以指定其为下面的任意一值：

CP_ACP：ANSI代码页；CP_MACCP：Macintosh代码页；CP_OEMCP：OEM代码页；
CP_SYMBOL：符号代码页（42）；CP_THREAD_ACP：当前线程ANSI代码页；
CP_UTF7：使用UTF-7转换；CP_UTF8：使用UTF-8转换。

相关变量

lpWideCharStr：指向将被转换的unicode字符串。
cchWideChar：指定由参数lpWideCharStr指向的缓冲区的字符个数。如果这个值为-1，字符串将被设定为以NULL为结束符的字符串，并且自动计算长度。
lpMultiByteStr：指向接收被转换字符串的缓冲区。
cchMultiByte：指定由参数lpMultiByteStr指向的缓冲区最大值（用字节来计量）。若此值为零，函数返回lpMultiByteStr指向的目标缓冲区所必需的字节数，在这种情况下，lpMultiByteStr参数通常为NULL。
lpDefaultChar和pfUsedDefaultChar：只有当WideCharToMultiByte函数遇到一个宽字节字符，而该字符在uCodePage参数标识的代码页中并没有它的表示法时，WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换，该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL（这是大多数情况下的参数值），那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的，因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量，如果Unicode字符串中至少有一个字符不能转换成等价多字节字符，那么函数就将该变量置为TRUE。如果所有字符均被成功地转换，那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后，可以测试该变量。
返回值：如果函数运行成功，并且cchMultiByte不为零，返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数；如果函数运行成功，并且cchMultiByte为零，返回值是接收到待转换字符串的缓冲区所必需的字节数。如果函数运行失败，返回值为零。若想获得更多错误信息，请调用GetLastError函数。它可以返回下面所列错误代码：
ERROR_INSUFFICIENT_BJFFER；ERROR_INVALID_FLAGS；
ERROR_INVALID_PARAMETER；ERROR_NO_UNICODE_TRANSLATION。
注意：指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样，函数将失败，GetLastError将返回ERROR_INVALID_PARAMETER的值。
Windows CE：不支持参数CodePage中的CP_UTF7和CP_UTF8的值，以及参数dwFlags中的WC_NO_BEST_FIT_CHARS值。

生成utf-8编码的文件
步骤如下:
1. 首先要写一个BOM头。UTF-8文件一般是要这个头的，当然也可以没有。
2. 将要生成的字符先使用宽字符格式生成，然后调用WideCharToMultiByte转为utf-8编码，写入文件。

例子如下：

FILE * pFile = fopen("d://a.txt", "w"); 
  char szBOM[4] = {(char)0xEF, (char)0xBB, (char)0xBF, 0}; 
  fprintf(pFile, "%s", szBOM); 
   
  wchar_t chNum[11] = L"零壹贰叁肆伍陆柒捌玖"; 
  wchar_t chNum2[10] = L"亿千百拾万千百拾个"; 
  char sz[10] = "112304823"; 
   
  wchar_t result[32] = L""; 
   
  int offset = 0; 
  for(int i = 0; i < strlen(sz); ++ i) 
  { 
    char c = sz[i]; 
     
    wchar_t w1 = chNum[ c - '0']; 
    wchar_t w2 = chNum2[i]; 
    swprintf(result + offset, L"%c%c", w1, w2); 
    offset += 2; 
  } 
  char szChar[64] = ""; 
  ::WideCharToMultiByte(CP_UTF8, 0, result, wcslen(result), szChar, 64, 0, 0); 
  fprintf(pFile, "%s", szChar); 
  fclose(pFile);

注意的是，当使用wchar_t而不再是char时，所有的字符串操作函数都需要时w系列的，例如wcslen、swprintf

您可能感兴趣的文章:

C++
UTF-8

c语言:基于函数指针的两个示例分析
本篇文章是对c语言中函数指针的两个示例做了详细的分析介绍，需要的朋友参考下
2013-05-05
C语言简明讲解预编译的使用
在C语言的程序中包括各种以符号#开头的编译指令，这些指令称为预处理命令。预处理命令属于C语言编译器，而不是C语言的组成部分，通过预处理命令可扩展C语言程序设计的环境
2022-05-05
C++新特性详细分析基于范围的for循环
C++11这次的更新带来了令很多C++程序员期待已久的for range循环，每次看到javascript， lua里的for range，心想要是C++能有多好，心里别提多酸了。这次C++11不负众望，再也不用羡慕别家人的for range了。下面看下C++11的for循环的新用法
2022-04-04
基于Qt实现离线瓦片地图下载器
这篇文章主要介绍了如何通过Qt实现离线瓦片地图下载器，文中的示例代码对我们学习或工作有一定的帮助，感兴趣的可以跟随小编一起学习一下
2022-01-01
VS报错C6011的问题:取消对NULL指针的引用(解决方法)
这篇文章主要介绍了VS报错C6011的问题:取消对NULL指针的引用(解决方法),C6011：取消对NULL指针的引用,发现是没有进行空指针的判断,解决方案跟随小编一起看看吧
2024-01-01
C++ 实现求小于n的最大素数的实例
这篇文章主要介绍了C++ 实现求小于n的最大素数的实例的相关资料,需要的朋友可以参考下
2017-05-05
StretchBlt函数和BitBlt函数用法案例详解
这篇文章主要介绍了StretchBlt函数和BitBlt函数用法案例详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
2021-08-08
求解旋转数组的最小数字
这篇文章主要介绍了求解旋转数组的最小数字的相关资料,需要的朋友可以参考下
2017-05-05
基于C语言实现学生管理系统
这篇文章主要为大家详细介绍了基于C语言实现学生管理系统，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-03-03
Mac下使用Eclipse编译C/C++文件出现 launch failed, binary not found 解决方
这篇文章主要介绍了Mac下使用Eclipse编译C/C++文件出现 launch failed, binary not found 解决方案,需要的朋友可以参考下
2014-10-10

C++使用WideCharToMultiByte函数生成UTF-8编码文件的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具