Tag: cjk codepoint

什么是实际使用中最常见的非BMP Unicode字符?

根据您的经验,目前最常见的是哪些Unicode字符,代码点,BMP(基础多语言平面)以外的范围? 这些是需要UTF-8中的4个字节或UTF-16中的替代项的。 我希望答案是中文和日文字符在名称中使用,但不包括在最广泛的CJK多字节字符集中,但在我最擅长的项目英文维基文库中,我们发现哥特字母是到目前为止更为普遍。 UPDATE 我已经写了几个软件工具来扫描整个维基百科的非BMP字符,发现令我惊讶的是,即使在日本维基百科中,哥特字母也是最常见的。 中文维基百科也是如此,但也有很多汉字被使用了50或70次,包括“𨭎”,“𠬠”和“𩷶”。