Tag: unicode

以二进制模式写入utf16文件

我试图写一个wstring与二进制模式ofstream文件,但我认为我做错了什么。 这是我试过的: ofstream outFile("test.txt", std::ios::out | std::ios::binary); wstring hello = L"hello"; outFile.write((char *) hello.c_str(), hello.length() * sizeof(wchar_t)); outFile.close(); 打开test.txt例如火狐编码设置为UTF16它将显示为: 你好 谁能告诉我为什么会发生这种情况? 编辑: 在hex编辑器中打开文件我得到: FF FE 68 00 00 00 65 00 00 00 6C 00 00 00 6C 00 00 00 6F 00 00 00 看起来我有两个额外的字节在每个字符之间出于某种原因?

JSON字符编码 – 是由浏览器支持的UTF-8还是应该使用数字转义序列?

我正在写一个使用json来表示资源的webservice,而且我有点卡在考虑编码json的最佳方法。 阅读json rfc( http://www.ietf.org/rfc/rfc4627.txt )很清楚,首选编码是utf-8。 但是rfc也描述了一个用于指定字符的string转义机制。 我认为这通常会被用来转义非ASCII字符,从而使得由此产生的utf-8有效的ascii。 假设我有一个包含非ASCII字符(代码点)的jsonstring。 我的web服务应该只是UTF-8编码,并返回它,或者它应该逃脱所有这些非ASCII字符,并返回纯粹的ASCII码? 我希望浏览器能够使用jsonp或eval执行结果。 这是否影响了这个决定? 我对各种浏览器对utf-8的javascript支持的知识缺乏。 编辑:我想澄清,我如何编码结果的主要关注是关于浏览器处理的结果。 我读过的内容表明,当使用JSONP时,浏览器可能对编码敏感。 我还没有find任何关于这个主题的真正的信息,所以我将不得不开始做一些testing,看看会发生什么。 理想情况下,我只想逃避那些需要的字符,只是utf-8编码的结果。

如何用Python urlopen获取非ASCII文件的URL?

我需要从非ASCII字符的URL获取数据,但urllib2.urlopen拒绝打开资源,并提出: UnicodeEncodeError: 'ascii' codec can't encode character u'\u0131' in position 26: ordinal not in range(128) 我知道url不符合标准,但我没有机会改变它。 使用Python访问由包含非ASCII字符的URL指向的资源的方式是什么? 编辑:换句话说,可以/如何urlopen打开一个URL,如: http://example.org/Ñöñ-ÅŞÇİİ/

如何读取Unicodeinput并比较Python中的Unicodestring?

我在Python中工作,并希望读取Unicode格式的用户input(从命令行),即一个Unicode相当于raw_input ? 此外,我想testingUnicodestring的平等,它看起来像一个标准==不起作用。 感谢您的帮助 !

你如何正确使用WideCharToMultiByte

我已经阅读WideCharToMultiByte的文档,但我坚持这个参数: lpMultiByteStr [out] Pointer to a buffer that receives the converted string. 我不太清楚如何正确地初始化variables并将其馈送到函数中

Python:从string中删除\ xa0?

我目前使用美丽的汤来parsing一个HTML文件,并调用get_text() ,但似乎我留下了很多\ xa0代表空格的Unicode。 有没有一种有效的方法来删除所有在Python 2.7中,并将其更改为空格? 我想更普遍的问题是,有没有办法删除Unicode格式? 我尝试使用: line = line.replace(u'\xa0',' ') ,正如另一个线程所build议的那样,但是把\ xa0改成了u,所以现在我到处都是“u”。 ): 编辑:这个问题似乎是通过str.replace(u'\xa0', ' ').encode('utf-8') ,但只是做.encode('utf-8')没有replace()似乎导致它甚至吐出更奇怪的字符,例如\ xc2。 任何人都可以解释吗?

用Unicode补充多语言平面符号创buildwebfont

我做了一个传统纸牌游戏的概念validation在线实现。 为了避免实际绘制卡片的图片,我使用了相应的Unicode字符 (例如U + 1F0A1)。 虽然这在现代Linux桌面( DejaVu Sans用于显示这些字符)方面效果很好,但其他操作系统(例如Windows或Android)似乎缺less可显示字符的字体。 一个简单的解决scheme是通过@font-face加载DejaVu Sans。 为了避免必须下载所有的DejaVu Sans,我想创build一个只包含相关代码点的字体。 原则上字体松鼠的Webfont发生器允许,但我不能得到它与Unicode平面1(纸牌符号)的字符。 是否有一些简单的方法来创build包含U + 1F0A0到U + 1F0DF的@font-face compatible字体?

在C#控制台应用程序中显示阿拉伯字符

我相信从Windows ME开始的13年多以前,在控制台应用程序上显示阿拉伯字符是可能的。 现在我正在使用Visual Studio 2013,在Windows 8上,以下代码显示: ????? ?? Console.OutputEncoding = System.Text.Encoding.Unicode; Console.WriteLine("مرحبا بك"); 无论如何,在控制台输出中显示阿拉伯字符?

从文本文件中删除unicode字符 – sed,其他bash / shell方法

如何从terminal上的一堆文本文件中删除unicode字符? 我试过这个,但它没有工作: sed 'g/\u'U+200E'//' -i *.txt 我需要从文本文件中删除这些unicode U+0091 – sort of weird "control" space U+0092 – same sort of weird "control" space A0 – non-space break U+200E – left to right mark

在Windows上从Python 2.x中的命令行参数中读取Unicode字符

我希望我的Python脚本能够读取Windows中的Unicode命令行参数。 但是看起来sys.argv是一个用本地编码编码的string,而不是Unicode。 我怎样才能读完整的Unicode命令行? 示例代码: argv.py import sys first_arg = sys.argv[1] print first_arg print type(first_arg) print first_arg.encode("hex") print open(first_arg) 在我的PC上设置日文代码页,我得到: C:\temp>argv.py "PC・ソフト申請書08.09.24.doc" PC・ソフト申請書08.09.24.doc <type 'str'> 50438145835c83748367905c90bf8f9130382e30392e32342e646f63 <open file 'PC・ソフト申請書08.09.24.doc', mode 'r' at 0x00917D90> 这是Shift-JIS编码我相信,它“工作”的文件名。 但是,如果文件名不包含Shift-JIS字符集中的字符,则最终的“打开”调用将失败: C:\temp>argv.py Jörgen.txt Jorgen.txt <type 'str'> 4a6f7267656e2e747874 Traceback (most recent call last): File "C:\temp\argv.py", line 7, in <module> print open(first_arg) IOError: [Errno […]