Tag: unicode

在C ++源代码中使用Unicode

什么是C ++源代码的标准编码? C ++标准甚至会说这个吗? 我可以用Unicode编写C ++源代码吗? 例如,我可以在注释中使用非ASCII字符,例如中文字符吗? 如果是这样,是完全的Unicode允许的还是只是一个Unicode的子集? (例如,这个16位的第一页或者其他的东西)。 此外,我可以使用Unicode的string? 例如: Wstring str=L"Strange chars: â Țđ ě €€";

获取Python可以编码的所有编码的列表

我正在编写一个脚本,将在Python 2.6中尝试将字节编码为许多不同的编码。 有什么办法可以获得我可以迭代的可用编码列表吗? 我试图这样做的原因是因为用户有一些文本编码不正确。 有有趣的人物。 我知道这个搞乱了的unicodeangular色。 我希望能够给他们一个答案,如“你的文本编辑器正在将该string解释为X编码,而不是Y编码”。 我想我会尝试使用一种编码对该字符进行编码,然后使用另一种编码重新对其进行解码,然后查看是否获得相同的字符序列。 即这样的事情: for encoding1, encoding2 in itertools.permutation(encodinglist(), 2): try: unicode_string = my_unicode_character.encode(encoding1).decode(encoding2) except: pass

在python中散列unicodestring

我尝试散列一些Unicodestring: hashlib.sha1(s).hexdigest() UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-81: ordinal not in range(128) 其中s是这样的: œΣ¡™£¢∞§¶•ªº-≠œΣ'®†¥¨øπ“'åß∂ƒ©˙Δ˚¬…æΩ≈ç√∫~μ≤≥÷åйцукенгшщзхъфывапролджэячсмитьбююю..юбьтијџўќ†њѓѕ” “«««\dzћ÷…•Δљl«єђxcvіƒm≤≥ї!@#$©^&*(()———-ΔΔΔΔΔΔΔΔΔΔΔΔΔ ΔΔΔΔΔΔ•…÷÷ћzdzћ…•ΔљlљΔ•…÷÷ћzћ…•ΔљΔ•…љΔ•…љΔ•…Δљ•…Δљ•…љΔ•…Δ• …Δ•…Δ•Δ…•÷Δ•…÷Δ•…÷Δ•…÷Δ•…÷Δ•…÷Δ•…÷Δ•… 我应该修补什么?

国际化在您的项目

你在实际工作中如何实施国际化(i18n)? 在我读完Joel着名的“绝对最低限度的每个软件开发人员”之后,我对编程软件的兴趣越来越浓厚,积极肯定Unicode和字符集(没有任何借口!) 。 但是,我还没有能够利用这个实际项目,除了确保我使用Unicodestring在可能的情况下。 但是把所有的string做成Unicode,并且确保你理解你所使用的所有东西的编码只是国际冰山的一angular。 我所做过的所有工作都是由一群受控制的美国说英语的人来使用的,或者说,在推动这个项目之前,我们并没有时间去做这件事。 所以我正在寻找人们在现实世界中使软件更加本地化的技巧或战争故事。

为什么Java允许在其标识符中使用控制字符?

谜 在探索Java标识符允许使用哪些字符的时候,我偶然发现了一些非常好奇的东西,这几乎肯定是一个bug。 我期望能够findJava标识符符合这样的要求:它们以具有Unicode属性ID_Start的字符ID_Start ,后面跟着具有ID_Continue属性的ID_Continue ,并为引导下划线和美元符号授予例外。 事实并非如此,我所发现的是与我所听到的正常标识符的这种或任何其他想法的极端不同。 短演示 考虑以下演示,certificate在Java标识符中允许使用ASCII ESC字符(八进制033): $ perl -le 'print qq(public class escape { public static void main(String argv[]) { String var_\033 = "i am escape: \033"; System.out.println(var_\033); }})' > escape.java $ javac escape.java $ java escape | cat -v i am escape: ^[ 不过,情况更糟糕。 事实上,几乎是无穷的。 即使NULL是允许的! 还有成千上万的其他代码点甚至不是标识符字符。 我已经在Solaris,Linux和运行Darwin的Mac上testing过了,并且都给出了相同的结果。 长演示 下面是一个testing程序,它将显示所有这些意想不到的代码点,Java是一个合法标识符名称的一部分。 #!/usr/bin/env […]

应该允许在用户名中使用Unicode吗?

为什么大多数(所有?)网站只支持ASCII的用户名? 如果pipe理员决定开始接受Unicode用户名,是否有任何安全考虑?

电子邮件地址是否允许包含非字母数字字符?

我正在用Djangobuild立一个网站。 该网站可能有来自非英语国家的重要用户。 我只想知道电子​​邮件地址可能包含的字符types是否有任何技术限制。 电子邮件地址是否只允许包含英文字母,数字,“_”,“@”和“。”? 是否允许包含“é”或“ü”等非英文字母? 他们是否允许包含中文或日文或其他Unicode字符?

NameError:全局名称“unicode”未定义 – 在Python 3中

我正在尝试使用名为bidi的Python包。 在这个包(algorithm.py)的一个模块中,有一些行给我错误,虽然它是包的一部分。 这里是行: # utf-8 ? we need unicode if isinstance(unicode_or_str, unicode): text = unicode_or_str decoded = False else: text = unicode_or_str.decode(encoding) decoded = True 这里是错误信息: Traceback (most recent call last): File "<pyshell#25>", line 1, in <module> bidi_text = get_display(reshaped_text) File "C:\Python33\lib\site-packages\python_bidi-0.3.4-py3.3.egg\bidi\algorithm.py", line 602, in get_display if isinstance(unicode_or_str, unicode): NameError: global name 'unicode' is not […]

Python的StringIO替代工作与字节而不是string?

有什么替代python的StringIO类,一个将使用bytes而不是string? 这可能不是很明显,但是如果你使用StringIO来处理二进制数据,那么对于Python 2.7或更新版本来说,你是不幸运的。

添加希腊字符轴标题

我想在R的barplot的y轴上添加一个希腊字符 问题是我需要把这个angular色整合到标题中。 我想写: Diameter of aperture ("mu"m) 在轴标签中。 同 ylab=expression() 我可以写出希腊字符 ylab="axis title" 我可以在文字之间加上适当的空格来书写标题。 但是我找不到把所有这些放在一起的方法,并在轴标上写上一个希腊词的正确标签。 我希望我已经清楚了。