Tag: unicode

URL编码Unicode字符的正确方法是什么？: 我知道非标准的％uxxxxscheme，但这并不是一个明智的select，因为该scheme已被W3C拒绝。一些有趣的例子：心的性格。如果我在浏览器中input： http://www.google.com/search?q=♥ 然后复制并粘贴它，我看到这个URL http://www.google.com/search?q=%E2%99%A5 这使得它看起来像Firefox（或Safari）正在这样做。 urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' 这是有道理的，除了不能用Latin-1编码的东西，就像三重点字符。 … 如果我input的url http://www.google.com/search?q=… 进入我的浏览器，然后复制并粘贴，我得到 http://www.google.com/search?q=%E2%80%A6 背部。这似乎是做的结果 urllib.quote_plus(x.encode("utf-8")) 这是有道理的，因为…不能用Latin-1编码。但是接下来我不清楚浏览器是如何知道是用UTF-8还是用Latin-1来解码。由于这似乎是模棱两可的： In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' 工作，所以我不知道如何浏览器找出是否使用UTF-8或Latin-1解码。用我需要处理的特殊字符做什么是正确的？

C ++ wchar_t和wstrings有什么“错误”？什么是宽字符的替代品？: 我见过很多C ++社区的人（特别是freenode上的## c ++），对于使用wstrings和wchar_t以及它们在windows api中的使用感到不满。 wchar_t和wstring究竟是什么“错误”，如果我想支持国际化，那么宽字符有什么替代？

我如何在UNIX中对所有非ASCII字符进行grep: 我有几个非常大的XML文件，我试图find包含非ASCII字符的行。我已经尝试了以下内容： grep -e "[\x{00FF}-\x{FFFF}]" file.xml 但是这将返回文件中的每一行，而不pipe该行是否包含指定范围内的字符。我的语法错了吗？还是我在做其他的错误？我也试过： egrep "[\x{00FF}-\x{FFFF}]" file.xml （包含模式的单引号和双引号）。

如何将一个Unicode字符转换为它的ASCII等效: 这是问题：在C＃中，我从传统的ACCESS数据库获取信息。在将内容交给我之前，.NET会将数据库的内容（在这种情况下是一个string）转换为Unicode。如何将这个Unicodestring转换回它的ASCII码？编辑 Unicode char 710的确是MODIFIER LETTER CIRCUMFLEX ACCENT。这个问题更精确一些： – >（扩展的）ASCII字符ê（扩展ASCII 136）被插入到数据库中。 – > Access或.NET中的读取组件将其转换为U + 02C6 U + 0065 （MODIFIER LETTER CIRCUMFLEX ACCENT + LATIN小字母E） – >我需要（扩展的）ASCII字符136回来。这是我所尝试过的（我现在看到为什么这不起作用…）： string myInput = Convert.ToString(Convert.ToChar(710)); byte[] asBytes = Encoding.ASCII.GetBytes(myInput); 但是这不会导致94，而是一个值63的字节… 这是一个新的尝试，但它仍然无法正常工作： byte[] bytes = Encoding.ASCII.GetBytes("ê"); Soltution 感谢csgero和bzlm指向正确的方向我在这里解决了这个问题。

NTFS中的文件名是以什么编码存储的？: 我刚开始使用一些编程来处理WinXP系统上非英文名称的文件名。我已经做了一些关于unicode的推荐阅读，我想我已经有了基本的想法，但是有些部分对我来说还不是很清楚。具体来说，什么编码（UTF-8，UTF-16LE / BE）是存储在NTFS中的文件名（不是内容，而是文件的实际名称）？是否有可能打开任何文件使用fopen（），这需要一个字符*，或者我别无select，只能使用wfopen（），它使用wchar_t *，大概需要一个UTF-16string？我尝试手动喂养一个UTF-8编码的stringfopen（），例如。 unsigned char filename[] = {0xEA, 0xB0, 0x80, 0x2E, 0x74, 0x78, 0x74, 0x0}; // 가.txt FILE* f = fopen((char*)filename, "wb+"); 但是这是作为'ê°€.txt'出来的。我的印象（这可能是错误的），一个UTF8编码的string就足以打开Windows下的任何文件名，因为我似乎隐约记得一些Windows应用程序传递（char *），而不是（wchar_t *），并有没问题。任何人都可以点亮这个？

Python正则expression式匹配Unicode属性: Perl和其他一些当前的regex引擎在正则expression式中支持Unicode属性，例如类别。例如在Perl中，可以使用\p{Ll}来匹配任意小写字母，或者使用p{Zs}来匹配任何空格分隔符。我在Python的2.x和3.x行中没有看到对此的支持（带来的遗憾）。有没有人知道获得类似效果的好策略？欢迎使用本土解决scheme。

使用Python 2.7读取和写入CSV文件，包括unicode: 我是Python的新手，我有一个关于如何使用Python来读取和写入CSV文件的问题。我的文件包含像德国，法国等。根据我的代码，这些文件可以在Python中正确读取，但是当我把它写入一个新的CSV文件时，Unicode变成一些奇怪的字符。数据如下所示：而我的代码是： import csv f=open('xxx.csv','rb') reader=csv.reader(f) wt=open('lll.csv','wb') writer=csv.writer(wt,quoting=csv.QUOTE_ALL) wt.close() f.close() 其结果是：你能告诉我该怎么办才能解决这个问题吗？非常感谢你！

在C ++ 11中支持Unicode有多好？: 我读过并且听说C ++ 11支持Unicode。有几个问题： C ++标准库如何支持Unicode？ std::string应该做什么？我如何使用它？潜在的问题在哪里？

用一个空格replace非ASCII字符: 我需要用空格replace所有非ASCII（\ x00- \ x7F）字符。我很惊讶，这不是在python死容易，除非我失去了一些东西。以下function只是删除所有非ASCII字符： def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) 而这个字符代码点中的字节数（即–字符被replace为3个空格）用空格的数量replace非ASCII字符： def remove_non_ascii_2(text): return re.sub(r'[^\x00-\x7F]',' ', text) 我怎样才能用一个空格replace所有的非ASCII字符？在大量类似的 SO 问题中，没有一个解决了与剥离相反的字符 replace 问题，另外还解决了所有非ASCII字符不是特定字符的问题。

如何在ggplot2中使用希腊文符号？: 我的类别需要用希腊字母命名。我正在使用ggplot2 ，并与数据美妙地工作。不幸的是，我不知道如何把这些希腊符号放在X轴上（在刻度线上），也使它们出现在图例中。有没有办法做到这一点？更新：我看了一下链接，但是，没有描述完成我想要做的好方法。

Interesting Posts

苹果如何find电子邮件中的date，时间和地址？

C ++ 11清除shared_ptr时，我应该使用重置或设置为nullptr？

Tag: unicode

URL编码Unicode字符的正确方法是什么？

C ++ wchar_t和wstrings有什么“错误”？什么是宽字符的替代品？

我如何在UNIX中对所有非ASCII字符进行grep

如何将一个Unicode字符转换为它的ASCII等效

NTFS中的文件名是以什么编码存储的？

Python正则expression式匹配Unicode属性

使用Python 2.7读取和写入CSV文件，包括unicode

在C ++ 11中支持Unicode有多好？

用一个空格replace非ASCII字符

如何在ggplot2中使用希腊文符号？

苹果如何find电子邮件中的date，时间和地址？

C ++ 11清除shared_ptr时，我应该使用重置或设置为nullptr？

使用Razor声明视图的MVC HtmlHelper扩展

使用JavaScript在服务器上保存文本文件

C #definemacros用于debugging打印

什么会'std：;' 做在C + +？

如何立即启动setInterval循环？

未定义的引用vtable

iOS9故事板什么是未处理的动作（handleNonLaunchSpecificActions）？

如何将两个PDF文件合并到一个Java中？

如何在AngularJS中使用具有自己的作用域的自定义指令*来访问父范围？

有没有办法在XAML中链接多个值转换器？

GLSL / C ++：制服arrays？

如何增加在PHP执行超时？

在Rails中加载一个目录到加载path？

Tag: unicode

URL编码Unicode字符的正确方法是什么？

C ++ wchar_t和wstrings有什么“错误”？ 什么是宽字符的替代品？

我如何在UNIX中对所有非A​​SCII字符进行grep

如何将一个Unicode字符转换为它的ASCII等效

NTFS中的文件名是以什么编码存储的？

Python正则expression式匹配Unicode属性

使用Python 2.7读取和写入CSV文件，包括unicode

在C ++ 11中支持Unicode有多好？

用一个空格replace非ASCII字符

如何在ggplot2中使用希腊文符号？

苹果如何find电子邮件中的date，时间和地址？

C ++ 11清除shared_ptr时，我应该使用重置或设置为nullptr？

使用Razor声明视图的MVC HtmlHelper扩展

使用JavaScript在服务器上保存文本文件

C #definemacros用于debugging打印

什么会'std：;' 做在C + +？

如何立即启动setInterval循环？

未定义的引用vtable

iOS9故事板什么是未处理的动作（handleNonLaunchSpecificActions）？

如何将两个PDF文件合并到一个Java中？

如何在AngularJS中使用具有自己的作用域的自定义指令*来访问父范围？

有没有办法在XAML中链接多个值转换器？

GLSL / C ++：制服arrays？

如何增加在PHP执行超时？

在Rails中加载一个目录到加载path？

C ++ wchar_t和wstrings有什么“错误”？什么是宽字符的替代品？

我如何在UNIX中对所有非ASCII字符进行grep