C++中的字符串编码处理方法

更新时间：2023年05月15日 08:32:52 作者：assassinx

这篇文章主要介绍了C++中的字符串编码处理,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

今天由于在项目中用到一些与C++混合开发的东西，需要通过socket与C++那边交换数据，没啥特别的，字节码而已，两边确定一种编码规则就行了。我们确定的UTF-8。关于C++的这种又是宽字节又是MessageBoxW 又是MessageBoxA 的，说实话相比C#而言搞的确实非常的和稀泥搞的非常的糊，别说新手有些不是新手的都搞不明白。

字符串字面量怎么被编码成字节的

什么是字符串？C#里的 string？C++里的char* ? 字符串的本质是什么？字符串不过是一个特殊的数据字节包装带有编码信息，特别是C++的更原始更便于我们想清楚这个底层，其实其他的已经迎刃而解了。首先我们无论如何确定一个东西那就是交换的东西是字节码 ,说白了也就是C++ 里的char [ ] 也就是char *，在我不管你编码的情况下我新建VC++项目在代码里这样写：

char str1[] = "中a";
 printf("%s\r\n", str1);

能不能输出东西？能不能输出中文当然能，那这个str1 字节码到底是什么字节码，只要我们把这个搞明白就可以了。一切未知的恐惧源于不明白。我们先调试C++代码取到字节码，然后编写下面这两句C#代码：

 byte[] bts2 = new byte[] { 0xd6, 0xd0, 0x61 };
 Console.WriteLine(Encoding.GetEncoding("gb2312").GetString(bts2));

正常输出了C++代码里的中文由此可见C++里默认代码到字节的字面量转换就是gb2312 ，就这样而已。就这样而已，真的就这么点东西，不要探究是什么机制驱使VC++默认把字符串转换到了gb2312编码，事情不要歪呀歪的想想复杂了，人的精力是有限的要放在有作用的地方。你看C++里是char [ ] 还不像C#的string经过包装的更便于你想明白这个过程。不是说C++有std库么不是有string 么还没讲呢，C++这门语言呢又好又不好设计特点是暴露的细节多各个细节你都可以自己控制让会用的人知道自己在做什么，但是也有些坑，其实string 就是char[] 的变种而已。你看C++里在你琢磨不透的情况下悄然在你不知情编码的情况下转换成了字节码，C#的string 封装的不会给你这个机会有明确的Encoding库调用指定编码。

窄字符和宽字符，怎么个宽法

C++里字符串的字面量分为两种一种是普通的窄字符，也就是普通的char [ ] 一个元素占1字节，另一种是宽字符 wchar_t [ ] 一个元素占2字节，_T("中a") 或者L"中a" 这种就是强行表示Unicode宽字符字面量。宽字符怎么个宽法呢，我们说他是Unicode 也就是utf-16，我们用C#进行验证：

 byte[] bts3 = new byte[] {  0x2d,0x4e, 0x61,0x00, };
 Console.WriteLine(Encoding.Unicode.GetString(bts3));

好了，这就明朗了，C++这玩意儿由于历史遗留原因，直接在代码书写字符串字面量搞了两套标准窄字符和宽字符 ,你看上面的同字符里面的字节码整的两套标准这就很扯，整的被迫大多数C++的函数或者接口都要按照这个套路玩。就有了看到的MessageBoxA ()接受char[]窄字符参数,MessageBoxW()接受宽字符参数 ,不要有误区哈觉得char[ ] 就不能输出中文，能不能是由对应的地方能不能解析这个字节码决定的而不是其他。

关于UTF-8

utf-8的现实意义更大于编程的字面量意义，为什么这么说，现在网络数据交换都是UTF-8 编码，C++编程字面量没有所谓UTF-8这个说法，UTF-8是一种落地编码，落地编码懂吗？就像图像编程保存最终格式有.jpg .png,utf-8 他是变长的对于字符串处理会出现很多问题不利于程序处理，图像编程中不管你jpg png格式也好载入到内存中最后都是易于处理的BMP内存映像。编程中都是Unicode因为2字节代表一个字符标标准准的是对齐的，利于编程处理。还有 utf-8 一个中文3字节其实比utf-16 一个中文2字节多，但是如果是英文的话就是1字节可以实现Unicode到ASCII的无缝转换可以处理一些老旧系统的兼容问题。 C++里Unicode可以通过手段转换为UTF-8：

void UnicodeToUtf8(const wchar_t* unicode,char  utf82[],int * lenout)
{
    int len;
    len = WideCharToMultiByte(CP_UTF8, 0, unicode, -1, NULL, 0, NULL, NULL);
    char szUtf82[50] = { 0 };
    *lenout = len;
    WideCharToMultiByte(CP_UTF8, 0, unicode, -1, utf82, len, NULL, NULL);
}

关于VC++项目属性里的设置字符集

什么意思呢：

当选择“使用Unicode字符集”时，编译器会增加宏定义——UNICODE；而选择“使用多字节字符集”时，编译器则不会增加宏定义——UNICODE。https://blog.csdn.net/huashuolin001/article/details/95620424
当选用“使用Unicode字符集”时，调用函数MessageBox，实际使用的是MessageBoxW，MessageBoxW关于字符串的入参类型是LPCWSTR，使用MessageBox时，字符串前需加L::MessageBox(NULL, L"这是一个测试程序!", L"Title", MB_OK);

多字节，默认的窄字符char[]带中文就是典型的多字节，接上面章节说明多字节+中文对于字符串处理分割会带来很多问题，所以带中文请尽量使用宽字符。然后另一个基于gb2312和Unicode编码我就不细说了哈，如果你想你的程序能够卖到国外在世界范围内使用，那么请使用Unicode，也就是 L" " 宽字符。C++里这些概念搞的比较糊，我描述的这些也是个意会，也许某些细节部分说错了像原来文章里那些评论里那样尖锐的指出来不怕批评。

最后，一些测试的大杂烩代码：

// ConsoleApplication1.cpp : 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include <iostream>
#include "h1.h"
#include "FqTabData.h"
#include "test1.h"
#include <windows.h>
#include <string>
#include <iomanip>
#include <type_traits>
using namespace std;
//引用的使用方式
void test1(int &r){
    r = r+1;
}
void UnicodeToUtf8(const wchar_t* unicode,char  utf82[],int * lenout)
{
    int len;
    len = WideCharToMultiByte(CP_UTF8, 0, unicode, -1, NULL, 0, NULL, NULL);
    char szUtf82[50] = { 0 };
    *lenout = len;
    WideCharToMultiByte(CP_UTF8, 0, unicode, -1, utf82, len, NULL, NULL);
}
int _tmain(int argc, _TCHAR* argv[])
{
    setlocale(LC_ALL, "");//注意控制台输出要先加上这句哈要不然无法输出中文
    wchar_t wstr2[] = L"中a";
    wprintf(L"%ls\r\n", wstr2);
    char str1[] = "中ab";
    printf("%s\r\n", str1);
    return 0;
    //关于c++里的编码问题
    //    并非 不在在项目属性里设置编码字符集 为Unicode 就不能显示中文
    //char str11[] = "中a";         printf("%s", str11);
    //这段代码照样显示中文,中a被编译器编成3个元素存在str11 里+\0结尾
    //当选择“使用Unicode字符集”时，编译器会增加宏定义——UNICODE；而选择“使用多字节字符集”时，编译器则不会增加宏定义——UNICODE。
    //https://blog.csdn.net/huashuolin001/article/details/95620424
    //当选用“使用Unicode字符集”时，调用函数MessageBox，实际使用的是MessageBoxW，MessageBoxW关于字符串的入参类型是LPCWSTR，
    //使用MessageBox时，字符串前需加L
    //::MessageBox(NULL, L"这是一个测试程序!", L"Title", MB_OK);
    //关于这个L ，等同于_T("")  Tchar 这些玩意儿他们都有同等意义
    //可以傻瓜的理解 L 本身就是搞一个宽字符型 字符串 ，每个字符占2字节
    //wchar_t ws[] = L"国家";
    //设置为Unicode 就意味着宽字符 就意味着字符串 要加L
    //就像前面的 好多函数接口有两种版本 MessageBoxA MessageBoxW ，
    //MessageBoxW就意味着你要传一个宽字符数组进去 也就是 wchar_t 或者L"dd"
    //注意多字节字符集是一个很容易让人费解的玩意儿，
    //我们说  utf-8是 一种Unicode的落地编码
    //编程里都是用 Unicode 不管项目设没设置Unicode字符集 wchar_t ws[] = L"国家"; 得到的都是宽字符串
    //但是编程代码里 没有utf-8 这一说法 utf-8是变长的 也就是多字节   他是一种编码落地
    //你想想你整个变长 别人接口怎么写 ，怎么达到在让你用变长省内存的同时 识别你的有效字符
    //如果数组里存utf-8 你想想 别人要以字节数读字符 半个的时候怎么搞
    //这跟gdi图像处理是同一个道理 jpg png 各种是落地格式都可以读进来 但是到内存都是bmp
    //还有不论哪种printf 或者其他接口 都不支持所谓的utf-8的参数 也没这种接口可言
    //https://zhuanlan.zhihu.com/p/23190549
    //前几天在微博上受到了@Belleve给我的启发，于是简单地实现了几个在 Windows
    //下接受 UTF - 8 参数的 printf 系列函数。大致思路是判断当前 stdout / stderr
    //是否为控制台，如果是控制台则将参数转为 UTF - 16 后调用 wprintf 输出，否则不转换直接调用 printf。
    //L 是一个很微妙的 ，称之为转换为宽字符的字面量  什么叫字面量 根据你当前编程环境 以及源代码编码 转换成对应的字节
    //L"发" 字面量 你细品
    setlocale(LC_ALL, "");
    printf("--------------------");
    //wchar_t wc = L'破';
    std::wstring wstr = L"破a的";
    std::cout << wstr.size() << std::endl;
    //utf-8 只是流行 ，事实上utf-8 一个汉字要占3字节  而utf-16一个汉字一字节
    /*wchar_t wstr2[] = L"破晓S";
    wprintf(L"%ls", wstr2);*/
    printf("--------------------//");
    char utf82[50] = { 0 };
    int len = 0;
    UnicodeToUtf8(wstr2, utf82, &len);
    //char* str222 = UnicodeToUtf8(wstr2);
    //printf("%S", str222);
    //printf("aaa");
    return 0;
    //
    //c++ 中指针的变种  引用的使用方式
    printf("aaa\r\n");
    int a = 123;
    int& b = a;
    a = 456;
    printf("%d \r\n", b);
    test1(b);
    printf("%d \r\n", b);
    int c = 345;
    test1(c);
    printf("%d \r\n", c);
    return 0;
}

到此这篇关于C++中的字符串编码处理的文章就介绍到这了,更多相关C++字符串编码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

C语言详细解析时间复杂度与空间复杂度
算法复杂度分为时间复杂度和空间复杂度。其作用：时间复杂度是度量算法执行的时间长短；而空间复杂度是度量算法所需存储空间的大小
2022-04-04
C++学习之智能指针中的unique_ptr与shared_ptr
吃独食的unique_ptr与乐于分享的shared_ptr是C++中常见的两个智能指针，本文主要为大家介绍了这两个指针的使用以及智能指针使用的原因，希望对大家有所帮助
2023-05-05
C++实现高性能转换大小写算法示例
大小写转换是我们作为一名程序员经常会遇到，也必须要会的一个功能，下面这篇文章主要给大家介绍了关于C++实现高性能转换大小写算法的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2018-01-01
C++实现LeetCode(157.用Read4来读取N个字符)
这篇文章主要介绍了C++实现LeetCode(157.用Read4来读取N个字符),本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
2021-07-07
C语言计算分段函数问题
这篇文章主要介绍了C语言计算分段函数问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-11-11
C语言中的逗号运算符详解
在C语言中逗号“,”也是一种运算符，称为逗号运算符，其功能是把两个表达式连接起来组成一个表达式，称为逗号表达式，这篇文章主要介绍了C语言中的逗号运算符,需要的朋友可以参考下
2022-11-11
一文带你简单了解c++正则表达式
正则表达式在匹配字符串,验证输入合法性时经常用到.C++ 11标准库中已经支持了正则表达式,下面这篇文章主要给大家介绍了关于c++正则表达式的相关资料,需要的朋友可以参考下
2023-04-04
C++可扩展性与多线程超详细精讲
这篇文章主要介绍了C++可扩展性与多线程，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
2022-10-10
c语言轻松实现猜数字小游戏
猜数字是兴起于英国的益智类小游戏，起源于20世纪中期，一般由两个人或多人玩，也可以由一个人和电脑玩。游戏规则为一方出数字，一方猜，今天我们来用C实现这个游戏案例
2022-04-04
Matlab实现鼠标光标变成爱心和瞄准镜形状
这篇文章主要为大家详细介绍了如何利用Matlab实现将鼠标光标变成爱心和瞄准镜等形状，文中的示例代码讲解详细，感兴趣的可以了解一下
2022-08-08