Tag: utf 8

如何在CSV文件中编写UTF-8: 我正在尝试创build一个PyQt4 QTableWidget csv格式的文本文件。我想用UTF-8编码来编写文本，因为它包含特殊字符。我使用以下代码： import codecs … myfile = codecs.open(filename, 'w','utf-8') … f = result.table.item(i,c).text() myfile.write(f+";") 它的工作，直到单元格包含一个特殊的字符。我也试过 myfile = open(filename, 'w') … f = unicode(result.table.item(i,c).text(), "utf-8") 但是当特殊字符出现时也会停止。我不知道我在做什么错。

OS XterminalUTF-8的问题: 好吧，所以我终于在15年的Linux后为自己做了一台MacBook Air。而在我得到它之前，我最担心的是UTF-8的支持，因为无论我从Windows或Mac客户端发送给我的文件是否总是与编码有关，而在Ubuntu上，我可以确保所有的输出，不pipe是什么程序产生完美的utf-8编码数据。现在在我的第二天（今天）OS X Im沮丧地撕毁我的头发。为什么？当我打开Nano并在其中键入一些瑞典语字符时，它会在行尾输出空白字符（我猜是每个字符中的另一个字节）当我打开Python并尝试使用瑞典语字符时，它根本不输出任何内容当我通过SSH连接到Ubuntu服务器时，我无法在bash中键入åäö，它在VIM中仍然工作（仍然通过SSH）。而在纳米退格不起作用，但如果在terminal首选项中勾选“删除发送Ctrl + H”，退格开始在纳米工作，但停止在VIM工作。我已经试过在terminal首选项中取消选中所有其他编码，然后UTF-8，但似乎不工作。我敢肯定，每个非美国人都必须有同样的问题，所以我可以修复它们吗？我只想要完整的UTF-8支持…：'（

猜测在Java中表示为byte 的文本的编码: 给定一些代表某些未知编码（通常是UTF-8或ISO-8859-1，但不一定如此）的文本的字节数组，最好的方法是获得最可能使用的编码（在Java中）的猜测？值得注意：没有额外的元数据可用。字节数组实际上是唯一可用的input。检测algorithm显然不是100％正确的。如果algorithm在80％以上的情况下是正确的，那就足够了。

简单的方法来从string中删除UTF-8口音？: 我想改变这个句子： Etçasera samoitié。至： Et ca sera sa moitie。有没有一种简单的方法来做到这一点在Java中，就像我在Objective-C中做的那样？ NSString *str = @"Et ça sera sa moitié."; NSData *data = [str dataUsingEncoding:NSASCIIStringEncoding allowLossyConversion:YES]; NSString *newStr = [[NSString alloc] initWithData:data encoding:NSASCIIStringEncoding];

如何使用UTF-8编码保存源（）.R文件？: 以下，直接复制并粘贴到R工作正常： > character_test <- function() print("R同时也被称为GNU S是一个强烈的function性语言和环境，探索统计数据集，使许多从自定义数据graphics显示…") > character_test() [1] "R同时也被称为GNU S是一个强烈的function性语言和环境,探索统计数据集,使许多从自定义数据graphics显示…" 但是，如果我创build了一个名为character_test.R的文件，其中包含EXACT SAME代码，请将其保存为UTF-8编码（以保留特殊的中文字符），然后当我在R中源代码时，出现以下错误： > source(file="C:\\Users\\Tony\\Desktop\\character_test.R", encoding = "UTF-8") Error in source(file = "C:\\Users\\Tony\\Desktop\\character_test.R", encoding = "utf-8") : C:\Users\Tony\Desktop\character_test.R:3:0: unexpected end of input 1: character.test <- function() print("R 2: ^ In addition: Warning message: In source(file = "C:\\Users\\Tony\\Desktop\\character_test.R", encoding = "UTF-8") : invalid […]

使用JavaScript的atob来解码base64不能正确解码utf-8string: 我正在使用Javascript window.atob()函数来解码base64编码的string（特别是来自GitHub API的base64编码的内容）。问题是我得到了ASCII编码的字符（像？而不是™ ）。我怎样才能正确处理传入的base64编码stream，以便解码为utf-8？

从轨道3删除“utf8 =✓”提交: 我在我的Rails 3应用程序中有一个简单的search表单： <%= form_tag search_path, :method => "get" do %> <%= text_field_tag :q, params[:q] %> <%= submit_tag "search", :name => nil %> <% end %> 当用户点击提交button时，他们被带到URL http://myapp.com/search?utf8=%E2%9C%93&q=foobar （其中％E2％9C％93被显示为复选标记）。我没有做任何与utf8参数，所以我想通过完全删除它的URL保持清洁。也就是说，我希望用户转到URL http://myapp.com/search?q=foobar 。我如何做到这一点？

Ruby 1.9：我怎样才能正确地提升和取消多字节string？: 所以matz决定在Ruby 1.9.1中保持上/[AZ]/i downcase为/[AZ]/i 。 ActiveSupport::Multibyte在Ruby 1.8.x中通过String#mb_chars已经有了很好的i18n情况。但是，在Ruby 1.9.1下试用时，它似乎不起作用。下面是我写的一个简单的testing脚本，以及我得到的输出： $ cat test.rb # encoding: UTF-8 puts("@ #{RUBY_VERSION} " + (__ENCODING__ rescue $KCODE).to_s) sd, su = "Iñtërnâtiônàlizætiøn", "IÑTËRNÂTIÔNÀLIZÆTIØN" def ps(u, d, k); puts "%-30s: %24s / %-24s" % [k, u, d] end ps sd.upcase, su.downcase, "Plain ruby" require 'rubygems'; require 'active_support' ps sd.upcase, su.downcase, "With active_support" […]

request.getQueryString（）似乎需要一些编码: 我有一些UTF-8的问题。我的客户端（以GWT实现）向我的servlet发出一个请求，在URL中有一些参数，如下所示： http://localhost:8080/servlet?param=value 当在servlet中检索URL时，我有一些UTF-8字符的问题。我使用这个代码： protected void service(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { request.setCharacterEncoding("UTF-8"); String reqUrl = request.getRequestURL().toString(); String queryString = request.getQueryString(); System.out.println("Request: "+reqUrl + "?" + queryString); … 所以，如果我打电话给这个url： http://localhost:8080/servlet?param=così 结果是这样的： Request: http://localhost:8080/servlet?param=cos%C3%AC 我能做些什么来正确设置字符编码？

如何在Visual C ++ 2008中创build一个UTF-8string文字: 在VC ++ 2003中，我可以将源文件保存为UTF-8，并且所有string均按原样使用。换句话说，下面的代码将原样打印到控制台。如果源文件保存为UTF-8，那么输出将是UTF-8。 printf("Chinese (Traditional)"); printf("中国語 (繁体)"); printf("중국어 (번체)"); printf("Chinês (Tradicional)"); 我用UTF-8 BOM保存了UTF-8格式的文件。但是使用VC2008编译的结果是： warning C4566: character represented by universal-character-name '\uC911' cannot be represented in the current code page (932) warning C4566: character represented by universal-character-name '\uAD6D' cannot be represented in the current code page (932) etc. 导致这些警告的字符已损坏。符合语言环境（在这种情况下，932 =日语）的转换为语言环境编码，即Shift-JIS。我找不到一个方法让VC ++ 2008为我编译这个。 […]