Tag: utf 8

显示在文件中的<0xEF,0xBB,0xBF>字符。 如何删除它们?

我在做压缩的JavaScript文件,压缩机抱怨我的文件中有字符。 我如何search这些字符并将其删除?

FPDF utf-8编码(HOW-TO)

有谁知道如何在FPDF包中设置编码为utf-8? 或者至less是支持希腊字符的ISO-8859-7(希腊语)? 基本上我想创build一个包含希腊字符的PDF文件。 任何build议将有所帮助。 乔治

UTF8到/从STL宽字符转换

是否有可能将std :: string中的UTF8string转换为std :: wstring,反之亦然? 在Windows应用程序中,我将使用MultiByteToWideChar和WideCharToMultiByte。 但是,代码是为多个操作系统编译的,而我仅限于标准的C ++库。

SQLite,python,unicode和非UTF数据

我开始尝试使用python在sqlite中存储string,并得到消息: sqlite3.ProgrammingError:除非使用可解释8位字节串的text_factory(如text_factory = str),否则不得使用8位字节串。 强烈build议您将应用程序切换为Unicodestring。 好的,我切换到Unicodestring。 然后我开始收到消息: sqlite3.OperationalError:无法解码到UTF-8列'tag_artist'与文字'SigurRós' 当试图从数据库中检索数据。 更多的研究,我开始用utf8编码,但是“SigurRós”开始看起来像“Sigur R?s” 注意:我的控制台被设置为显示在“latin_1”,正如@John Machin指出的那样。 是什么赋予了? 读完这个之后 ,描述完全一样的情况,好像build议是忽略其他的build议,并使用8位字节串。 在我开始这个过程之前,我对Unicode和UTF不太了解。 在过去的几个小时里,我学到了很多东西,但是我仍然不知道是否有办法将“ó”从拉丁文-1正确地转换为utf-8,而不是将其摧毁。 如果没有,为什么会强烈build议我将应用程序切换到unicodestring? 我将用一个总结和一些示例代码来更新这个问题,这些代码是我在过去24小时学到的一切,这样我的鞋子里有人可以有一个简单的指导。 如果我发布的信息有任何错误或误导,请告诉我,我会更新,或者你们其中一位高级人员可以更新。 答案摘要 让我先说明我的理解。 处理各种编码的目标是,如果你想在它们之间进行转换,就要理解你的源编码是什么,然后使用该源编码将其转换为unicode,然后将其转换为你想要的编码。 Unicode是基础,编码是该基础子集的映射。 utf_8为unicode中的每个字符提供了空间,但是因为它们与latin_1不在同一个地方,所以使用utf_8编码并发送到latin_1控制台的string将看起来不像您期望的那样。 在python中获得unicode和另一种编码的过程如下所示: str.decode('source_encoding').encode('desired_encoding') 或者如果str已经在unicode中 str.encode('desired_encoding') 对于sqlite我实际上并不想重新编码,我想解码它,并保持unicode格式。 在尝试使用unicode和python编码时,需要注意以下四点。 您想要使用的string编码,以及您想要的编码。 系统编码。 控制台编码。 源文件的编码 阐述: (1)从源读取string时,它必须有一些编码,如latin_1或utf_8。 在我的情况下,我从文件名获得string,所以不幸的是,我可以得到任何types的编码。 Windows XP使用UCS-2(一个Unicode系统)作为它的本地stringtypes,这似乎是对我的欺骗。 对我来说幸运的是,大多数文件名中的字符不会由多个源编码types组成,我认为我的所有字符都完全是latin_1,完全是utf_8,或者只是简单的ascii(它是那些)。 所以我只读了它们,并将它们解码,好像它们仍然在latin_1或utf_8中。 不过,有可能你可以将latin_1和utf_8以及其他任何字符混合在一个文件名中。 有时这些angular色可以显示为框,其他时候他们只是看起来被打乱,而其他时候他们看起来是正确的(重音字符和什么)。 继续。 (2)Python有一个默认的系统编码,在Python启动时被设置,在运行时不能被修改。 详情请看这里 。 肮脏的总结…以及这里是我添加的文件: \# sitecustomize.py \# this file […]

Python解码Unicode不受支持

我在Python中的编码有问题。 我已经尝试了不同的方法,但我似乎无法find将我的输出编码为UTF-8的最佳方式。 这是我想要做的: result = unicode(google.searchGoogle(param), "utf-8").encode("utf-8") searchGoogle返回param的第一个Google结果。 这是我得到的错误: exceptions.TypeError: decoding Unicode is not supported 有谁知道我可以如何使用UTF-8编码我的输出来避免这个错误?

示例无效的utf8string?

我正在testing我的一些代码如何处理错误的数据,而且我需要几个无效的UTF-8字节序列。 你可以张贴一些,理想的情况下,解释为什么他们不好/你从哪里得到?

Java相当于JavaScript的encodeURIComponent产生相同的输出?

我一直在尝试各种各样的Java代码试图想出一些东西,将编码包含引号,空格和“异国情调”的Unicode字符的string,并产生与JavaScript的encodeURIComponent函数相同的输出。 我的酷刑testingstring是: “A”B±“ 如果我在Firebug中input以下JavaScript语句: encodeURIComponent('"A" B ± "'); – 那么我得到: "%22A%22%20B%20%C2%B1%20%22" 这是我的小testingJava程序: import java.io.UnsupportedEncodingException; import java.net.URLEncoder; public class EncodingTest { public static void main(String[] args) throws UnsupportedEncodingException { String s = "\"A\" B ± \""; System.out.println("URLEncoder.encode returns " + URLEncoder.encode(s, "UTF-8")); System.out.println("getBytes returns " + new String(s.getBytes("UTF-8"), "ISO-8859-1")); } } 这个程序输出: URLEncoder.encode返回%22A%22 + B +%C2%B1 […]

Java – 将String转换为有效的URI对象

我想从一个String获取一个java.net.URI对象。 该string有一些字符,需要用它们的百分比转义序列来replace。 但是当我使用URLEncoder编码UTF-8编码的string时,即使是/他们被replace为它们的转义序列。 我怎样才能从一个string对象获得一个有效的编码的URL? http://www.google.com?q=a b提供http%3A%2F%2www.google.com …而我希望输出为http://www.google.com?q=a% 20B 有人可以告诉我如何做到这一点。 我正在尝试在Android应用程序中执行此操作。 所以我可以访问数量有限的图书馆。

C编程:如何编程为Unicode?

严格的Unicode编程需要什么先决条件? 这是否意味着我的代码不应该在任何地方使用chartypes,并且需要使用可以处理wint_t和wchar_t函数? 在这种情况下多字节字符序列所起的作用是什么?

用Python读取UTF8 CSV文件

我正在尝试使用Python(只有法文和/或西class牙文字符)读取带重音字符的CSV文件。 基于csvreader( http://docs.python.org/library/csv.html )的Python 2.5文档,我想出了以下代码来读取CSV文件,因为csvreader只支持ASCII。 def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode temporarily as UTF-8: csv_reader = csv.reader(utf_8_encoder(unicode_csv_data), dialect=dialect, **kwargs) for row in csv_reader: # decode UTF-8 back to Unicode, cell by cell: yield [unicode(cell, 'utf-8') for cell in row] def utf_8_encoder(unicode_csv_data): for line in unicode_csv_data: yield line.encode('utf-8') filename = 'output.csv' reader […]