Tag: unicode

Big Endian和Little Endian字节顺序的区别

Big Endian和Little Endian字节顺序有什么区别? 这两个似乎都与Unicode和UTF16相关。 我们到底在哪里使用这个?

所有unicode的打开/closures括号的列表?

什么是每个unicode括号字符的列表(包括,例如: {}[]()<> )? 什么是searchunicode字符的好方法?

我如何删除非ASCII字符,但留下句点和空格使用Python?

我正在处理一个.txt文件。 我想要一个没有非ASCII字符的文件的string。 但是,我想留下空间和时间。 目前,我也在剥离这些。 代码如下: def onlyascii(char): if ord(char) < 48 or ord(char) > 127: return '' else: return char def get_my_string(file_path): f=open(file_path,'r') data=f.read() f.close() filtered_data=filter(onlyascii, data) filtered_data = filtered_data.lower() return filtered_data 我应该如何修改onlyascii()留下空格和句点? 我想这不是太复杂,但我无法弄清楚。

如何摆脱ruby中的非ascii字符

我有一个Ruby CGI(不是rails),它从Web表单中select照片和标题。 我的用户非常热衷于使用智能报价和连字,他们正在从其他来源粘贴。 我的networking应用程序不能很好地处理这些非ASCII字符,是否有一个快速的Rubystring操作例程,可以摆脱非ASCII字符?

我应该在url中使用重音字符吗?

当用英语以外的语言创build网页内容时,出现search引擎优化和用户友好的URL问题。 我想知道在URL中使用去重音字母是否是最好的做法 – 冒着某些词有完全不同的含义,有或没有某种口音 – 或者最好坚持使用非英文字符适当的牺牲在较不高级的环境(如MSIE,查看源)这些url的可读性。 “异国情调”的字母可以出现在任何地方:文件标题,标签,用户名等,所以他们并不总是在网站维护者的全面监督下。 当然,一个可能的方法是设置不同的URL,以指向最初的目的地,但是我想了解一下使用重音URL作为主文档标识符的意见。

是否有一个Unicode字形看起来像一个“钥匙”图标?

Unicode有一百万像图标的字形,但是它们并不总是很容易search,因为我并不总是知道它们的样子。 有一个Unicode字形,看起来像一个“钥匙”? 或者是否有一个在数据库圈中使用的符号表示“主键”,这是 Unicode中的?

修复损坏的UTF8编码

我正在修复一些不好的UTF8编码的过程。 我目前正在使用PHP 5和MySQL 在我的数据库中,我有几个不好的编码实例,打印如下:? 数据库sorting规则是utf8_general_ci PHP正在使用一个正确的UTF8头 记事本++被设置为使用UTF8没有BOM 数据库pipe理在phpMyAdmin中处理 不是所有重音字符的情况都被破坏了 我所需要的是某种function,它可以帮助我将ƒƒ®,ƒƒƒ¼¼和其他类似的实例映射到它们正确的带有重音的UTF8字符。

Unicode在C + + 11

我一直在阅读Unicode的主题 – 特别是在C ++ 11中的UTF-8(非)支持,我希望Stack Overflow的专家能够向我保证我的理解是正确的,或者指出我误解的地方或错过的地方。 一个简短的总结 首先,你可以在源代码中定义UTF-8,UTF-16和UCS-4文字。 此外, <locale>头文件包含了几个可以在UTF-8,UTF-16,UCS-4和平台多字节编码之间进行转换的std::codecvt实现(尽pipeAPI看起来很温和,但小于直截了当)。 这些codecvt实现可以imbue()在stream上,以便在读取或写入文件(或其他stream)时进行转换。 [ 编辑: Cubbi指出,我忽略了提及<codecvt>标题,它提供了不依赖于语言环境的std::codecvt实现。 此外, std::wstring_convert和wbuffer_convert函数可以使用这些codecvt来直接转换string和缓冲区,而不依赖于stream。] C ++ 11还包括C99 / C11 <uchar.h>头文件,其中包含将平台多字节编码(可能是也可能不是UTF-8)的单个字符转换成UCS-2和UCS-4的函数。 但是,这是关于它的程度。 虽然你当然可以将UTF-8文本存储在std::string ,但是我没有办法看到对它做任何有用的事情。 例如,除了在你的代码中定义一个文字,你不能validation一个字节数组是否包含有效的UTF-8,你不能找出长度(即Unicode字符的数量,对于“字符” )包含一个UTF-8的std::string ,并且不能以字节为单位以任何方式迭代std::string 。 同样,即使C ++ 11增加了std::u16string也不是真的支持UTF-16,而只是老的UCS-2 – 它不支持代理对,只留下了BMP。 意见 鉴于UTF-8是几乎所有Unix派生系统(包括Mac OS X和 * Linux)上处理Unicode的标准方法,并且已经基本成为网上事实上的标准,所以在现代C ++中缺乏支持像一个非常严重的遗漏。 即使在Windows上,新的std::u16string并不真正支持UTF-16的事实似乎有些遗憾。 *正如在评论中指出的,在这里明确指出,Mac OS的BSD派生部分使用UTF-8,而Cocoa使用UTF-16。 问题 如果您设法阅读所有这些,谢谢! 只是几个简单的问题,因为这是堆栈溢出毕竟… 上面的分析是否正确,或者是否有其他Unicode支持设施? 在过去几年中,标准委员会在推动C ++向前发展方面做了出色的工作。 他们都是聪明的人,我认为他们很清楚上述缺点。 是否有一个众所周知的原因,Unicode支持在C ++中仍然很差? outlook未来,有没有人知道有什么scheme可以纠正? 快速searchisocpp.org似乎没有透露任何东西。 […]

为什么用'U +'来指定一个Unicode代码点?

为什么Unicode代码点显示为U+ <codepoint> ? 例如, U+2202代表字符∂ 。 为什么不U- (短划线或连字符)或其他什么?

我如何在Java中replace不可打印的Unicode字符?

以下将取代ASCII控制字符( [\x00-\x1F\x7F]简写): my_string.replaceAll("\\p{Cntrl}", "?"); 以下内容将replace所有ASCII非打印字符( [\p{Graph}\x20]简写),包括重音字符: my_string.replaceAll("[^\\p{Print}]", "?"); 但是,对Unicodestring都不起作用。 有没有人有一个很好的方法来从unicodestring中删除不可打印的字符?