Tag: unicode

Unicode和UTF-8有什么区别?

考虑: unicode=utf16是真的吗? 许多人认为Unicode是一种标准,而不是一种编码,但大多数编辑器实际上支持保存为Unicode 编码 。

ASCII和Unicode有什么区别?

我可以知道Unicode和ASCII之间的确切区别吗? ASCII总共有128个字符(扩展集中有256个)。 Unicode字符是否有任何大小规范?

utf-8字边界正则expression式在javascript中

在JavaScript中: "ab abc cab ab ab".replace(/\bab\b/g, "AB"); 正确给我: "AB abc cab AB AB" 当我使用utf-8字符时: "αβ αβγ γαβ αβ αβ".replace(/\bαβ\b/g, "AB"); 字边界算子似乎不工作: "αβ αβγ γαβ αβ αβ" 有没有解决这个问题?

BMP之外的JavaScriptstring

BMP是基本的多语言平面 根据JavaScript:好的部分 : JavaScript是在Unicode是16位字符集的时候构build的,所以JavaScript中的所有字符都是16位宽。 这使我相信JavaScript使用UCS-2(不是UTF-16!),只能处理高达U + FFFF的字符。 进一步调查证实了这一点: > String.fromCharCode(0x20001); fromCharCode方法在返回Unicode字符时似乎只使用最低16位。 尝试获得U + 20001(CJK统一表意文字20001)而不是返回U + 0001。 问题:是否可以在JavaScript中处理BMP后的字符? 2011-07-31:从Unicode支持 12张幻灯片: 好,坏,和(主要)丑陋涉及这个相当好的问题:

Python 2.6中对csv文件的一般Unicode / UTF-8支持

Python中的csv模块在涉及到UTF-8 / Unicode时无法正常工作。 我在Python文档和其他网页上发现了针对特定情况的片段,但您必须很好地理解您正在处理的编码以及使用合适的片段。 如何从Python 2.6中的“just works”中.csv文件中读取和写入string和Unicodestring? 还是这是Python 2.6的一个限制,没有简单的解决scheme?

转换CString为const char *

在我的Unicode MFC应用程序中如何从CString转换为const char* ?

如何在Python中按字母顺序sortingunicodestring?

Python默认按字节值sorting,这意味着é在z和其他同样有趣的事情之后。 什么是在Python中按字母顺序sorting的最佳方法? 有这样的图书馆吗? 我找不到任何东西。 优先select应该有语言支持,因此它理解åäö应该在瑞典语z之后sorting,但是ü应该按usorting等。因此Unicode支持几乎是一个要求。 如果没有图书馆,最好的办法是什么? 只需要从字母映射到整数值,并将string映射到一个整数列表?

将转义的Unicode字符转换回实际的字符

Java中的stringvariables具有下面的值,它具有如下所示的UTF-8字符编码 Dodd\u2013Frank 代替 Dodd–Frank (假设我不能控制这个值如何分配给这个stringvariables) 现在我该如何转换(编码)它,并将其存储回一个Stringvariables? 我find了下面的代码 Charset.forName("UTF-8").encode(str); 但是,这返回一个ByteBuffer ,但我想要一个String回来。 编辑 : 一些更多的附加信息。 当我使用System.out.println(str); 我明白了 Dodd\u2013Frank 我不确定什么是正确的术语(UTF-8或unicode)。 请原谅我。

用printf打印UTF-8string与多字节string文字

在像这样的语句中,两者都以相同的编码(UTF-8)input到源代码中,并且语言环境设置正确,它们之间是否有实际区别? printf("ο Δικαιοπολις εν αγρω εστιν\n"); printf("%ls", L"ο Δικαιοπολις εν αγρω εστιν\n"); 因此,在做输出时,是否有理由相对于另一个? 我想第二个performance会更糟,但是它在多字节文字上有什么优势(或缺点)吗? 编辑:这些string打印没有问题。 但是我没有使用宽string函数,因为我希望能够使用printf等。 所以问题在于这些印刷方式是否与以上所述情况不符?如果是这样,第二种方式有什么优势? 编辑2:下面的评论,我现在知道这个程序的作品 – 我认为是不可能的: int main() { setlocale(LC_ALL, ""); wprintf(L"ο Δικαιοπολις εν αγρω εστιν\n"); // wide output freopen(NULL, "w", stdout); // lets me switch printf("ο Δικαιοπολις εν αγρω εστιν\n"); // byte output } 编辑3 :我已经做了一些进一步的研究,看看这两种types正在发生什么。 采取更简单的string: wchar_t *wides = […]

Python的“这个Unicode的最好的ASCII”数据库在哪里?

我有一些使用Unicode标点符号的文本,如左侧的双引号,右侧的单引号,等等,我需要它在ASCII。 Python是否拥有这些字符的数据库,有明显的ASCII替代,所以我可以做得比把它们全部变成“?”更好。 ?