Tag: unicode

以二进制模式写入utf16文件: 我试图写一个wstring与二进制模式ofstream文件，但我认为我做错了什么。这是我试过的： ofstream outFile("test.txt", std::ios::out | std::ios::binary); wstring hello = L"hello"; outFile.write((char *) hello.c_str(), hello.length() * sizeof(wchar_t)); outFile.close(); 打开test.txt例如火狐编码设置为UTF16它将显示为：你好谁能告诉我为什么会发生这种情况？编辑：在hex编辑器中打开文件我得到： FF FE 68 00 00 00 65 00 00 00 6C 00 00 00 6C 00 00 00 6F 00 00 00 看起来我有两个额外的字节在每个字符之间出于某种原因？

JSON字符编码 – 是由浏览器支持的UTF-8还是应该使用数字转义序列？: 我正在写一个使用json来表示资源的webservice，而且我有点卡在考虑编码json的最佳方法。阅读json rfc（ http://www.ietf.org/rfc/rfc4627.txt ）很清楚，首选编码是utf-8。但是rfc也描述了一个用于指定字符的string转义机制。我认为这通常会被用来转义非ASCII字符，从而使得由此产生的utf-8有效的ascii。假设我有一个包含非ASCII字符（代码点）的jsonstring。我的web服务应该只是UTF-8编码，并返回它，或者它应该逃脱所有这些非ASCII字符，并返回纯粹的ASCII码？我希望浏览器能够使用jsonp或eval执行结果。这是否影响了这个决定？我对各种浏览器对utf-8的javascript支持的知识缺乏。编辑：我想澄清，我如何编码结果的主要关注是关于浏览器处理的结果。我读过的内容表明，当使用JSONP时，浏览器可能对编码敏感。我还没有find任何关于这个主题的真正的信息，所以我将不得不开始做一些testing，看看会发生什么。理想情况下，我只想逃避那些需要的字符，只是utf-8编码的结果。

如何用Python urlopen获取非ASCII文件的URL？: 我需要从非ASCII字符的URL获取数据，但urllib2.urlopen拒绝打开资源，并提出： UnicodeEncodeError: 'ascii' codec can't encode character u'\u0131' in position 26: ordinal not in range(128) 我知道url不符合标准，但我没有机会改变它。使用Python访问由包含非ASCII字符的URL指向的资源的方式是什么？编辑：换句话说，可以/如何urlopen打开一个URL，如： http://example.org/Ñöñ-ÅŞÇİİ/

如何读取Unicodeinput并比较Python中的Unicodestring？: 我在Python中工作，并希望读取Unicode格式的用户input（从命令行），即一个Unicode相当于raw_input ？此外，我想testingUnicodestring的平等，它看起来像一个标准==不起作用。感谢您的帮助！

你如何正确使用WideCharToMultiByte: 我已经阅读WideCharToMultiByte的文档，但我坚持这个参数： lpMultiByteStr [out] Pointer to a buffer that receives the converted string. 我不太清楚如何正确地初始化variables并将其馈送到函数中

Python：从string中删除\ xa0？: 我目前使用美丽的汤来parsing一个HTML文件，并调用get_text() ，但似乎我留下了很多\ xa0代表空格的Unicode。有没有一种有效的方法来删除所有在Python 2.7中，并将其更改为空格？我想更普遍的问题是，有没有办法删除Unicode格式？我尝试使用： line = line.replace(u'\xa0',' ') ，正如另一个线程所build议的那样，但是把\ xa0改成了u，所以现在我到处都是“u”。）：编辑：这个问题似乎是通过str.replace(u'\xa0', ' ').encode('utf-8') ，但只是做.encode('utf-8')没有replace()似乎导致它甚至吐出更奇怪的字符，例如\ xc2。任何人都可以解释吗？

用Unicode补充多语言平面符号创buildwebfont: 我做了一个传统纸牌游戏的概念validation在线实现。为了避免实际绘制卡片的图片，我使用了相应的Unicode字符（例如U + 1F0A1）。虽然这在现代Linux桌面（ DejaVu Sans用于显示这些字符）方面效果很好，但其他操作系统（例如Windows或Android）似乎缺less可显示字符的字体。一个简单的解决scheme是通过@font-face加载DejaVu Sans。为了避免必须下载所有的DejaVu Sans，我想创build一个只包含相关代码点的字体。原则上字体松鼠的Webfont发生器允许，但我不能得到它与Unicode平面1（纸牌符号）的字符。是否有一些简单的方法来创build包含U + 1F0A0到U + 1F0DF的@font-face compatible字体？

在C＃控制台应用程序中显示阿拉伯字符: 我相信从Windows ME开始的13年多以前，在控制台应用程序上显示阿拉伯字符是可能的。现在我正在使用Visual Studio 2013，在Windows 8上，以下代码显示： ????? ?? Console.OutputEncoding = System.Text.Encoding.Unicode; Console.WriteLine("مرحبا بك"); 无论如何，在控制台输出中显示阿拉伯字符？

从文本文件中删除unicode字符 – sed，其他bash / shell方法: 如何从terminal上的一堆文本文件中删除unicode字符？我试过这个，但它没有工作： sed 'g/\u'U+200E'//' -i *.txt 我需要从文本文件中删除这些unicode U+0091 – sort of weird "control" space U+0092 – same sort of weird "control" space A0 – non-space break U+200E – left to right mark

在Windows上从Python 2.x中的命令行参数中读取Unicode字符: 我希望我的Python脚本能够读取Windows中的Unicode命令行参数。但是看起来sys.argv是一个用本地编码编码的string，而不是Unicode。我怎样才能读完整的Unicode命令行？示例代码： argv.py import sys first_arg = sys.argv[1] print first_arg print type(first_arg) print first_arg.encode("hex") print open(first_arg) 在我的PC上设置日文代码页，我得到： C:\temp>argv.py "PC・ソフト申請書08.09.24.doc" PC・ソフト申請書08.09.24.doc <type 'str'> 50438145835c83748367905c90bf8f9130382e30392e32342e646f63 <open file 'PC・ソフト申請書08.09.24.doc', mode 'r' at 0x00917D90> 这是Shift-JIS编码我相信，它“工作”的文件名。但是，如果文件名不包含Shift-JIS字符集中的字符，则最终的“打开”调用将失败： C:\temp>argv.py Jörgen.txt Jorgen.txt <type 'str'> 4a6f7267656e2e747874 Traceback (most recent call last): File "C:\temp\argv.py", line 7, in <module> print open(first_arg) IOError: [Errno […]