Tag: unicode

Big Endian和Little Endian字节顺序的区别: Big Endian和Little Endian字节顺序有什么区别？这两个似乎都与Unicode和UTF16相关。我们到底在哪里使用这个？

所有unicode的打开/closures括号的列表？: 什么是每个unicode括号字符的列表（包括，例如： {}[]()<> ）？什么是searchunicode字符的好方法？

我如何删除非ASCII字符，但留下句点和空格使用Python？: 我正在处理一个.txt文件。我想要一个没有非ASCII字符的文件的string。但是，我想留下空间和时间。目前，我也在剥离这些。代码如下： def onlyascii(char): if ord(char) < 48 or ord(char) > 127: return '' else: return char def get_my_string(file_path): f=open(file_path,'r') data=f.read() f.close() filtered_data=filter(onlyascii, data) filtered_data = filtered_data.lower() return filtered_data 我应该如何修改onlyascii（）留下空格和句点？我想这不是太复杂，但我无法弄清楚。

如何摆脱ruby中的非ascii字符: 我有一个Ruby CGI（不是rails），它从Web表单中select照片和标题。我的用户非常热衷于使用智能报价和连字，他们正在从其他来源粘贴。我的networking应用程序不能很好地处理这些非ASCII字符，是否有一个快速的Rubystring操作例程，可以摆脱非ASCII字符？

我应该在url中使用重音字符吗？: 当用英语以外的语言创build网页内容时，出现search引擎优化和用户友好的URL问题。我想知道在URL中使用去重音字母是否是最好的做法 – 冒着某些词有完全不同的含义，有或没有某种口音 – 或者最好坚持使用非英文字符适当的牺牲在较不高级的环境（如MSIE，查看源）这些url的可读性。 “异国情调”的字母可以出现在任何地方：文件标题，标签，用户名等，所以他们并不总是在网站维护者的全面监督下。当然，一个可能的方法是设置不同的URL，以指向最初的目的地，但是我想了解一下使用重音URL作为主文档标识符的意见。

是否有一个Unicode字形看起来像一个“钥匙”图标？: Unicode有一百万像图标的字形，但是它们并不总是很容易search，因为我并不总是知道它们的样子。有一个Unicode字形，看起来像一个“钥匙”？或者是否有一个在数据库圈中使用的符号表示“主键”，这是 Unicode中的？

修复损坏的UTF8编码: 我正在修复一些不好的UTF8编码的过程。我目前正在使用PHP 5和MySQL 在我的数据库中，我有几个不好的编码实例，打印如下：？数据库sorting规则是utf8_general_ci PHP正在使用一个正确的UTF8头记事本++被设置为使用UTF8没有BOM 数据库pipe理在phpMyAdmin中处理不是所有重音字符的情况都被破坏了我所需要的是某种function，它可以帮助我将ƒƒ®，ƒƒƒ¼¼和其他类似的实例映射到它们正确的带有重音的UTF8字符。

Unicode在C + + 11: 我一直在阅读Unicode的主题 – 特别是在C ++ 11中的UTF-8（非）支持，我希望Stack Overflow的专家能够向我保证我的理解是正确的，或者指出我误解的地方或错过的地方。一个简短的总结首先，你可以在源代码中定义UTF-8，UTF-16和UCS-4文字。此外， <locale>头文件包含了几个可以在UTF-8，UTF-16，UCS-4和平台多字节编码之间进行转换的std::codecvt实现（尽pipeAPI看起来很温和，但小于直截了当）。这些codecvt实现可以imbue()在stream上，以便在读取或写入文件（或其他stream）时进行转换。 [ 编辑： Cubbi指出，我忽略了提及<codecvt>标题，它提供了不依赖于语言环境的std::codecvt实现。此外， std::wstring_convert和wbuffer_convert函数可以使用这些codecvt来直接转换string和缓冲区，而不依赖于stream。] C ++ 11还包括C99 / C11 <uchar.h>头文件，其中包含将平台多字节编码（可能是也可能不是UTF-8）的单个字符转换成UCS-2和UCS-4的函数。但是，这是关于它的程度。虽然你当然可以将UTF-8文本存储在std::string ，但是我没有办法看到对它做任何有用的事情。例如，除了在你的代码中定义一个文字，你不能validation一个字节数组是否包含有效的UTF-8，你不能找出长度（即Unicode字符的数量，对于“字符” ）包含一个UTF-8的std::string ，并且不能以字节为单位以任何方式迭代std::string 。同样，即使C ++ 11增加了std::u16string也不是真的支持UTF-16，而只是老的UCS-2 – 它不支持代理对，只留下了BMP。意见鉴于UTF-8是几乎所有Unix派生系统（包括Mac OS X和 * Linux）上处理Unicode的标准方法，并且已经基本成为网上事实上的标准，所以在现代C ++中缺乏支持像一个非常严重的遗漏。即使在Windows上，新的std::u16string并不真正支持UTF-16的事实似乎有些遗憾。 *正如在评论中指出的，在这里明确指出，Mac OS的BSD派生部分使用UTF-8，而Cocoa使用UTF-16。问题如果您设法阅读所有这些，谢谢！只是几个简单的问题，因为这是堆栈溢出毕竟… 上面的分析是否正确，或者是否有其他Unicode支持设施？在过去几年中，标准委员会在推动C ++向前发展方面做了出色的工作。他们都是聪明的人，我认为他们很清楚上述缺点。是否有一个众所周知的原因，Unicode支持在C ++中仍然很差？ outlook未来，有没有人知道有什么scheme可以纠正？快速searchisocpp.org似乎没有透露任何东西。 […]

为什么用'U +'来指定一个Unicode代码点？: 为什么Unicode代码点显示为U+ <codepoint> ？例如， U+2202代表字符∂ 。为什么不U- （短划线或连字符）或其他什么？

我如何在Java中replace不可打印的Unicode字符？: 以下将取代ASCII控制字符（ [\x00-\x1F\x7F]简写）： my_string.replaceAll("\\p{Cntrl}", "?"); 以下内容将replace所有ASCII非打印字符（ [\p{Graph}\x20]简写），包括重音字符： my_string.replaceAll("[^\\p{Print}]", "?"); 但是，对Unicodestring都不起作用。有没有人有一个很好的方法来从unicodestring中删除不可打印的字符？