Tag: utf 8

读取InputStream为UTF-8

我试图通过互联网逐行阅读text/plain文件。 我现在的代码是: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + line); } test.txt文件包含了¡Hélló! ,我正在使用它来testing编码。 当我查看OutputStream ( out )时,我认为它是> ¬°H√©ll√≥! 。 我不相信这是OutputStream的问题,因为我可以做out.println("é"); 没有问题。 任何读取forms的InputStream为UTF-8的想法? 谢谢!

什么是UTF-8编码字符的最大字节数?

单个UTF-8编码字符的最大字节数是多less? 我将encryption以UTF-8编码的string的字节,因此需要能够计算出UTF-8编码string的最大字节数。 有人可以确认单个UTF-8编码字符的最大字节数

Python 2.6中对csv文件的一般Unicode / UTF-8支持

Python中的csv模块在涉及到UTF-8 / Unicode时无法正常工作。 我在Python文档和其他网页上发现了针对特定情况的片段,但您必须很好地理解您正在处理的编码以及使用合适的片段。 如何从Python 2.6中的“just works”中.csv文件中读取和写入string和Unicodestring? 还是这是Python 2.6的一个限制,没有简单的解决scheme?

如何在Eclipse中支持UTF-8编码

我如何在eclipse中添加UTF-8支持? 我想添加例如俄语,但日食不会支持它。 我该怎么办? 请指导我

Eclipse中的Java属性UTF-8编码

我最近不得不把我正在从ISO-xx工作的webapp编码切换到utf8 。 一切顺利,除了属性文件。 我在eclipse.ini添加了-Dfile.encoding=UTF-8 ,正常的文件工作正常。 属性然而显示一些奇怪的行为。 如果我从Notepad ++复制utf8编码属性并将它们粘贴到Eclipse中,它们将显示并正常工作。 当我重新打开属性文件时,我看到一些Unicode字符,而不是正确的字符,如: Zur\u00EF\u00BF\u00BDck instead of Zurück 但应用程序仍然正常工作。 如果我开始编辑属性,添加一些特殊字符并保存,它们显示正确,但是它们不起作用,所有以前工作的特殊字符不再工作。 当我比较本地版本与CVS时,我可以在远程文件上正确地看到特殊字符,更新后,我再次启动:应用程序工作,但Eclipse显示Unicode字符。 我尝试通过右键单击并select“其他:UTF8”更改文件编码,但它没有帮助。 它还表示:“从内容上确定:ISO-8859-1” 我使用基于Eclipse 3.3的Java 6和Jboss Developer 我可以通过在Notepad ++中编辑属性并将它们粘贴到Eclipse中来支持它,但是如果有人能帮助我在Eclipse中解决这个问题,我将不胜感激。

C#将string从UTF-8转换为ISO-8859-1(Latin1)H

我已经在这个话题上search,我已经看过每一个答案,但我仍然没有得到它。 基本上我需要将UTF-8string转换为ISO-8859-1,我使用下面的代码: Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); 我的源string是 Message = "ÄäÖöÕõÜü" 但不幸的是我的结果string变成 msg = "Ã?äÃ?öÃ?õÃ?ü 我在这里做错了什么?

将转义的Unicode字符转换回实际的字符

Java中的stringvariables具有下面的值,它具有如下所示的UTF-8字符编码 Dodd\u2013Frank 代替 Dodd–Frank (假设我不能控制这个值如何分配给这个stringvariables) 现在我该如何转换(编码)它,并将其存储回一个Stringvariables? 我find了下面的代码 Charset.forName("UTF-8").encode(str); 但是,这返回一个ByteBuffer ,但我想要一个String回来。 编辑 : 一些更多的附加信息。 当我使用System.out.println(str); 我明白了 Dodd\u2013Frank 我不确定什么是正确的术语(UTF-8或unicode)。 请原谅我。

如何避免在PHP中回显字符65279? (这个问题也涉及到Javascript xmlhttp.responseText(ajax))

我在这里 (和其他地方)遇到了类似的问题 – 在ajaxcallback中,我得到一个xmlhttp.responseText似乎可以(当我提醒它 – 显示正确的文本) – 但是当使用'if'语句将其与string进行比较 – 它返回false。 (我也是写这个string的服务器端代码的人) – 在仔细研究这个string之后 – 我发现string有一个“隐形字符”作为它的第一个字符。 未显示的字符。 如果我将它复制到记事本 – 然后删除第一个字符 – 它不会删除,直到再次按删除。 我为xmlhttp.responseText中的返回string做了一个charCodeAt(0)。 它返回65279 。 谷歌search显示它是某种UTF-8控制字符,应该设置“big-endian”或“small-endian”编码。 所以,现在我知道问题的原因 – 但是…为什么这个angular色正在呼应? 在源php我只是使用 echo 'the string'… 它显然以某种方式输出[字符(65279)]string… 为什么? 我怎样才能避免它?

用printf打印UTF-8string与多字节string文字

在像这样的语句中,两者都以相同的编码(UTF-8)input到源代码中,并且语言环境设置正确,它们之间是否有实际区别? printf("ο Δικαιοπολις εν αγρω εστιν\n"); printf("%ls", L"ο Δικαιοπολις εν αγρω εστιν\n"); 因此,在做输出时,是否有理由相对于另一个? 我想第二个performance会更糟,但是它在多字节文字上有什么优势(或缺点)吗? 编辑:这些string打印没有问题。 但是我没有使用宽string函数,因为我希望能够使用printf等。 所以问题在于这些印刷方式是否与以上所述情况不符?如果是这样,第二种方式有什么优势? 编辑2:下面的评论,我现在知道这个程序的作品 – 我认为是不可能的: int main() { setlocale(LC_ALL, ""); wprintf(L"ο Δικαιοπολις εν αγρω εστιν\n"); // wide output freopen(NULL, "w", stdout); // lets me switch printf("ο Δικαιοπολις εν αγρω εστιν\n"); // byte output } 编辑3 :我已经做了一些进一步的研究,看看这两种types正在发生什么。 采取更简单的string: wchar_t *wides = […]

如何最好地configurationPHP来处理一个UTF-8网站

你会推荐什么样的扩展,以及如何最好地configurationphp来创build一个使用UTF-8编码的网站。 例如… 页面输出是utf-8 表单提交utf-8编码的数据 string数据的内部处理(例如,当与数据库交谈时)也都在utf-8中。 看来,PHP目前还不能很好地处理多字节字符集。 到目前为止,我已经认识到, mbstring看起来像是一个重要的扩展。 这是值得的麻烦..?