Tag: unicode

URL编码Unicode字符的正确方法是什么?

我知道非标准的%uxxxxscheme,但这并不是一个明智的select,因为该scheme已被W3C拒绝。 一些有趣的例子: 心的性格。 如果我在浏览器中input: http://www.google.com/search?q=♥ 然后复制并粘贴它,我看到这个URL http://www.google.com/search?q=%E2%99%A5 这使得它看起来像Firefox(或Safari)正在这样做。 urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' 这是有道理的,除了不能用Latin-1编码的东西,就像三重点字符。 … 如果我input的url http://www.google.com/search?q=… 进入我的浏览器,然后复制并粘贴,我得到 http://www.google.com/search?q=%E2%80%A6 背部。 这似乎是做的结果 urllib.quote_plus(x.encode("utf-8")) 这是有道理的,因为…不能用Latin-1编码。 但是接下来我不清楚浏览器是如何知道是用UTF-8还是用Latin-1来解码。 由于这似乎是模棱两可的: In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' 工作,所以我不知道如何浏览器找出是否使用UTF-8或Latin-1解码。 用我需要处理的特殊字符做什么是正确的?

C ++ wchar_t和wstrings有什么“错误”? 什么是宽字符的替代品?

我见过很多C ++社区的人(特别是freenode上的## c ++),对于使用wstrings和wchar_t以及它们在windows api中的使用感到不满。 wchar_t和wstring究竟是什么“错误”,如果我想支持国际化,那么宽字符有什么替代?

我如何在UNIX中对所有非A​​SCII字符进行grep

我有几个非常大的XML文件,我试图find包含非ASCII字符的行。 我已经尝试了以下内容: grep -e "[\x{00FF}-\x{FFFF}]" file.xml 但是这将返回文件中的每一行,而不pipe该行是否包含指定范围内的字符。 我的语法错了吗?还是我在做其他的错误? 我也试过: egrep "[\x{00FF}-\x{FFFF}]" file.xml (包含模式的单引号和双引号)。

如何将一个Unicode字符转换为它的ASCII等效

这是问题: 在C#中,我从传统的ACCESS数据库获取信息。 在将内容交给我之前,.NET会将数据库的内容(在这种情况下是一个string)转换为Unicode。 如何将这个Unicodestring转换回它的ASCII码? 编辑 Unicode char 710的确是MODIFIER LETTER CIRCUMFLEX ACCENT。 这个问题更精确一些: – >(扩展的)ASCII字符ê(扩展ASCII 136)被插入到数据库中。 – > Access或.NET中的读取组件将其转换为U + 02C6 U + 0065 (MODIFIER LETTER CIRCUMFLEX ACCENT + LATIN小字母E) – >我需要(扩展的)ASCII字符136回来。 这是我所尝试过的(我现在看到为什么这不起作用…): string myInput = Convert.ToString(Convert.ToChar(710)); byte[] asBytes = Encoding.ASCII.GetBytes(myInput); 但是这不会导致94,而是一个值63的字节… 这是一个新的尝试,但它仍然无法正常工作: byte[] bytes = Encoding.ASCII.GetBytes("ê"); Soltution 感谢csgero和bzlm指向正确的方向我在这里解决了这个问题。

NTFS中的文件名是以什么编码存储的?

我刚开始使用一些编程来处理WinXP系统上非英文名称的文件名。 我已经做了一些关于unicode的推荐阅读,我想我已经有了基本的想法,但是有些部分对我来说还不是很清楚。 具体来说,什么编码(UTF-8,UTF-16LE / BE)是存储在NTFS中的文件名 (不是内容,而是文件的实际名称)? 是否有可能打开任何文件使用fopen(),这需要一个字符*,或者我别无select,只能使用wfopen(),它使用wchar_t *,大概需要一个UTF-16string? 我尝试手动喂养一个UTF-8编码的stringfopen(),例如。 unsigned char filename[] = {0xEA, 0xB0, 0x80, 0x2E, 0x74, 0x78, 0x74, 0x0}; // 가.txt FILE* f = fopen((char*)filename, "wb+"); 但是这是作为'ê°€.txt'出来的。 我的印象(这可能是错误的),一个UTF8编码的string就足以打开Windows下的任何文件名,因为我似乎隐约记得一些Windows应用程序传递(char *),而不是(wchar_t *),并有没问题。 任何人都可以点亮这个?

Python正则expression式匹配Unicode属性

Perl和其他一些当前的regex引擎在正则expression式中支持Unicode属性,例如类别。 例如在Perl中,可以使用\p{Ll}来匹配任意小写字母,或者使用p{Zs}来匹配任何空格分隔符。 我在Python的2.x和3.x行中没有看到对此的支持(带来的遗憾)。 有没有人知道获得类似效果的好策略? 欢迎使用本土解决scheme。

使用Python 2.7读取和写入CSV文件,包括unicode

我是Python的新手,我有一个关于如何使用Python来读取和写入CSV文件的问题。 我的文件包含像德国,法国等。根据我的代码,这些文件可以在Python中正确读取,但是当我把它写入一个新的CSV文件时,Unicode变成一些奇怪的字符。 数据如下所示: 而我的代码是: import csv f=open('xxx.csv','rb') reader=csv.reader(f) wt=open('lll.csv','wb') writer=csv.writer(wt,quoting=csv.QUOTE_ALL) wt.close() f.close() 其结果是: 你能告诉我该怎么办才能解决这个问题吗? 非常感谢你!

在C ++ 11中支持Unicode有多好?

我读过并且听说C ++ 11支持Unicode。 有几个问题: C ++标准库如何支持Unicode? std::string应该做什么? 我如何使用它? 潜在的问题在哪里?

用一个空格replace非ASCII字符

我需要用空格replace所有非ASCII(\ x00- \ x7F)字符。 我很惊讶,这不是在python死容易,除非我失去了一些东西。 以下function只是删除所有非ASCII字符: def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) 而这个字符代码点中的字节数(即–字符被replace为3个空格)用空格的数量replace非ASCII字符: def remove_non_ascii_2(text): return re.sub(r'[^\x00-\x7F]',' ', text) 我怎样才能用一个空格replace所有的非ASCII字符? 在 大量 类似的 SO 问题中 , 没有一个 解决了 与 剥离 相反的 字符 replace 问题 ,另外还解决了所有非ASCII字符不是特定字符的问题。

如何在ggplot2中使用希腊文符号?

我的类别需要用希腊字母命名。 我正在使用ggplot2 ,并与数据美妙地工作。 不幸的是,我不知道如何把这些希腊符号放在X轴上(在刻度线上),也使它们出现在图例中。 有没有办法做到这一点? 更新:我看了一下链接 ,但是,没有描述完成我想要做的好方法。