Unicode在C + + 11

我一直在阅读Unicode的主题 – 特别是在C ++ 11中的UTF-8（非）支持，我希望Stack Overflow的专家能够向我保证我的理解是正确的，或者指出我误解的地方或错过的地方。

一个简短的总结

首先，你可以在源代码中定义UTF-8，UTF-16和UCS-4文字。此外， <locale>头文件包含了几个可以在UTF-8，UTF-16，UCS-4和平台多字节编码之间进行转换的std::codecvt实现（尽pipeAPI看起来很温和，但小于直截了当）。这些codecvt实现可以imbue()在stream上，以便在读取或写入文件（或其他stream）时进行转换。

[ 编辑： Cubbi指出，我忽略了提及<codecvt>标题，它提供了不依赖于语言环境的std::codecvt实现。此外， std::wstring_convert和wbuffer_convert函数可以使用这些codecvt来直接转换string和缓冲区，而不依赖于stream。]

C ++ 11还包括C99 / C11 <uchar.h>头文件，其中包含将平台多字节编码（可能是也可能不是UTF-8）的单个字符转换成UCS-2和UCS-4的函数。

但是，这是关于它的程度。虽然你当然可以将UTF-8文本存储在std::string ，但是我没有办法看到对它做任何有用的事情。例如，除了在你的代码中定义一个文字，你不能validation一个字节数组是否包含有效的UTF-8，你不能找出长度（即Unicode字符的数量，对于“字符” ）包含一个UTF-8的std::string ，并且不能以字节为单位以任何方式迭代std::string 。

同样，即使C ++ 11增加了std::u16string也不是真的支持UTF-16，而只是老的UCS-2 – 它不支持代理对，只留下了BMP。

意见

鉴于UTF-8是几乎所有Unix派生系统（包括~~Mac OS X和~~ * Linux）上处理Unicode的标准方法，并且已经基本成为网上事实上的标准，所以在现代C ++中缺乏支持像一个非常严重的遗漏。即使在Windows上，新的std::u16string并不真正支持UTF-16的事实似乎有些遗憾。

_{*正如在评论中指出的，在这里明确指出，Mac OS的BSD派生部分使用UTF-8，而Cocoa使用UTF-16。}

问题

如果您设法阅读所有这些，谢谢！只是几个简单的问题，因为这是堆栈溢出毕竟…

上面的分析是否正确，或者是否有其他Unicode支持设施？
在过去几年中，标准委员会在推动C ++向前发展方面做了出色的工作。他们都是聪明的人，我认为他们很清楚上述缺点。是否有一个众所周知的原因，Unicode支持在C ++中仍然很差？
outlook未来，有没有人知道有什么scheme可以纠正？快速searchisocpp.org似乎没有透露任何东西。

编辑：谢谢大家的回应。我不得不承认，我觉得它们有点令人沮丧 – 在不久的将来，现状似乎不太可能改变。如果在认知方面有一个共识，那么似乎完全的Unicode支持太难了，任何解决scheme都必须重新实现大多数ICU才能被认为是有用的。

我个人不同意这个; 我觉得有宝贵的中间地带可以find。例如，UTF-8和UTF-16的validation和规范化algorithm由Unicode联盟明确规定，并且可以由标准库作为自由函数在std::unicode命名空间中提供。对于那些需要与需要Unicodeinput的库进行交互的C ++程序来说，这些将会非常有帮助。但是根据下面的答案（必须说，有一点苦涩），似乎Puppy对这种有限的function的build议并没有得到很好的回应。

上述分析是否正确？

让我们来看看。

您不能validation包含有效UTF-8的字节数组

不正确。 std::codecvt_utf8<char32_t>::length(start, end, max_lenght)返回数组中的有效字节数。

你找不到长度

部分正确。可以转换为char32_t并找出结果的长度。没有简单的方法找出长度，而没有做实际的转换（但见下文）。我必须说，需要统计字符（从任何意义上说）都是很less出现的。

您不能以字节为单位以任何方式迭代std :: string

不正确。 std::codecvt_utf8<char32_t>::length(start, end, 1)为您提供了遍历UTF-8“字符”（Unicode代码单元）的可能性，当然还要确定它们的数量（这不是一个“简单”的方法来计算字符的数量，但这是一种方式）。

并不真正支持UTF-16

不正确。可以使用std::codecvt_utf8_utf16<char16_t>转换UTF-16和UTF-16。转换为UTF-16的结果就是UTF-16。它不限于BMP。

演示说明这些要点。

如果我错过了其他的“你不能”，请指出来，我会解决它。

上面的分析是否正确，或者是否有其他Unicode支持设施？

你也错过了UTF-8文字的完全失败。他们没有一个明确的字符types，可能有一个完全不相关的（例如代码页）编码。因此，他们不但没有在C ++ 11中添加任何严重的新function，而且打破了原来的一点，因为现在你甚至不能假设你的平台的string是窄字符编码的，除非UTF-8是窄string编码。所以这里的新function是“我们完全打破了UTF-8不是现有的窄string编码的每个平台上基于string的string”。

在过去几年中，标准委员会在推动C ++向前发展方面做了出色的工作。他们都是聪明的人，我认为他们很清楚上述缺点。是否有一个众所周知的原因，Unicode支持在C ++中仍然很差？

委员会似乎没有提到Unicode的问题。

另外，许多Unicode支持algorithm就是这些algorithm。这意味着要提供一个体面的界面，我们需要范围。我们都知道，委员会无法弄清楚他们想要的范围。埃里克·尼布勒（Eric Niebler）提出的新的“无敌”

outlook未来，有没有人知道有什么scheme可以纠正？快速searchisocpp.org似乎没有透露任何东西。

有N3572，我写的。但是当我去布里斯托尔并提交时，出现了一些问题。

首先，事实certificate，委员会不会在会议之间反馈非委员会成员提出的提案，导致在迭代不需要的devise时会导致数月的工作失败。

第二，事实certificate，当时谁是偶然溜走呢？这意味着，如果你的论文被重新安排，你会有一些相对随机的人，他们可能会或可能不知道任何关于主题的内容。或者甚至什么都没有。

第三，由于某种原因，他们似乎并不认为目前的情况是一个严重的问题。你可以得到无尽的讨论，究竟应该如何定义optional<T>比较操作，但处理用户input ？谁在乎呢？

第四，每篇论文都需要一个冠军来有效地呈现和维护它。考虑到以前的问题以及我无法前往其他会议的事实，那肯定不会是我，今后不会是我，除非你想捐出所有的旅费和工资最重要的是，没有其他人似乎在乎足够的努力。

Unicode在C + + 11

一个简短的总结

意见

问题

是否安全#define NULL nullptr？

C ++ std :: unordered_map中使用的默认哈希函数是什么？

为什么C ++ 11不支持匿名结构，而C11呢？

std :: function如何工作

虚函数可以有默认参数吗？

std :: auto_ptr到std :: unique_ptr

C ++ 11引入了标准化的内存模型。这是什么意思？那么如何影响C ++编程呢？

何时使用std :: forward来转发参数？

何时可以在初始化列表中省略外部大括号？

一个类不能有自己的静态constexpr成员实例吗？

Unicode在C + + 11

一个简短的总结

意见

问题

是否安全#define NULL nullptr？

C ++ std :: unordered_map中使用的默认哈希函数是什么？

为什么C ++ 11不支持匿名结构，而C11呢？

std :: function如何工作

虚函数可以有默认参数吗？

std :: auto_ptr到std :: unique_ptr

C ++ 11引入了标准化的内存模型。 这是什么意思？ 那么如何影响C ++编程呢？

何时使用std :: forward来转发参数？

何时可以在初始化列表中省略外部大括号？

一个类不能有自己的静态constexpr成员实例吗？

C ++ 11引入了标准化的内存模型。这是什么意思？那么如何影响C ++编程呢？