Tag: utf 8

读取InputStream为UTF-8: 我试图通过互联网逐行阅读text/plain文件。我现在的代码是： URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + line); } test.txt文件包含了¡Hélló! ，我正在使用它来testing编码。当我查看OutputStream （ out ）时，我认为它是> ¬°H√©ll√≥! 。我不相信这是OutputStream的问题，因为我可以做out.println("é"); 没有问题。任何读取forms的InputStream为UTF-8的想法？谢谢！

什么是UTF-8编码字符的最大字节数？: 单个UTF-8编码字符的最大字节数是多less？我将encryption以UTF-8编码的string的字节，因此需要能够计算出UTF-8编码string的最大字节数。有人可以确认单个UTF-8编码字符的最大字节数

Python 2.6中对csv文件的一般Unicode / UTF-8支持: Python中的csv模块在涉及到UTF-8 / Unicode时无法正常工作。我在Python文档和其他网页上发现了针对特定情况的片段，但您必须很好地理解您正在处理的编码以及使用合适的片段。如何从Python 2.6中的“just works”中.csv文件中读取和写入string和Unicodestring？还是这是Python 2.6的一个限制，没有简单的解决scheme？

Eclipse中的Java属性UTF-8编码: 我最近不得不把我正在从ISO-xx工作的webapp编码切换到utf8 。一切顺利，除了属性文件。我在eclipse.ini添加了-Dfile.encoding=UTF-8 ，正常的文件工作正常。属性然而显示一些奇怪的行为。如果我从Notepad ++复制utf8编码属性并将它们粘贴到Eclipse中，它们将显示并正常工作。当我重新打开属性文件时，我看到一些Unicode字符，而不是正确的字符，如： Zur\u00EF\u00BF\u00BDck instead of Zurück 但应用程序仍然正常工作。如果我开始编辑属性，添加一些特殊字符并保存，它们显示正确，但是它们不起作用，所有以前工作的特殊字符不再工作。当我比较本地版本与CVS时，我可以在远程文件上正确地看到特殊字符，更新后，我再次启动：应用程序工作，但Eclipse显示Unicode字符。我尝试通过右键单击并select“其他：UTF8”更改文件编码，但它没有帮助。它还表示：“从内容上确定：ISO-8859-1” 我使用基于Eclipse 3.3的Java 6和Jboss Developer 我可以通过在Notepad ++中编辑属性并将它们粘贴到Eclipse中来支持它，但是如果有人能帮助我在Eclipse中解决这个问题，我将不胜感激。

C＃将string从UTF-8转换为ISO-8859-1（Latin1）H: 我已经在这个话题上search，我已经看过每一个答案，但我仍然没有得到它。基本上我需要将UTF-8string转换为ISO-8859-1，我使用下面的代码： Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); 我的源string是 Message = "ÄäÖöÕõÜü" 但不幸的是我的结果string变成 msg = "Ã?Ã¤Ã?Ã¶Ã?ÃµÃ?Ã¼ 我在这里做错了什么？

将转义的Unicode字符转换回实际的字符: Java中的stringvariables具有下面的值，它具有如下所示的UTF-8字符编码 Dodd\u2013Frank 代替 Dodd–Frank （假设我不能控制这个值如何分配给这个stringvariables）现在我该如何转换（编码）它，并将其存储回一个Stringvariables？我find了下面的代码 Charset.forName("UTF-8").encode(str); 但是，这返回一个ByteBuffer ，但我想要一个String回来。编辑：一些更多的附加信息。当我使用System.out.println(str); 我明白了 Dodd\u2013Frank 我不确定什么是正确的术语（UTF-8或unicode）。请原谅我。

如何避免在PHP中回显字符65279？（这个问题也涉及到Javascript xmlhttp.responseText（ajax））: 我在这里（和其他地方）遇到了类似的问题 – 在ajaxcallback中，我得到一个xmlhttp.responseText似乎可以（当我提醒它 – 显示正确的文本） – 但是当使用'if'语句将其与string进行比较 – 它返回false。（我也是写这个string的服务器端代码的人） – 在仔细研究这个string之后 – 我发现string有一个“隐形字符”作为它的第一个字符。未显示的字符。如果我将它复制到记事本 – 然后删除第一个字符 – 它不会删除，直到再次按删除。我为xmlhttp.responseText中的返回string做了一个charCodeAt（0）。它返回65279 。谷歌search显示它是某种UTF-8控制字符，应该设置“big-endian”或“small-endian”编码。所以，现在我知道问题的原因 – 但是…为什么这个angular色正在呼应？在源php我只是使用 echo 'the string'… 它显然以某种方式输出[字符（65279）]string… 为什么？我怎样才能避免它？

用printf打印UTF-8string与多字节string文字: 在像这样的语句中，两者都以相同的编码（UTF-8）input到源代码中，并且语言环境设置正确，它们之间是否有实际区别？ printf("ο Δικαιοπολις εν αγρω εστιν\n"); printf("%ls", L"ο Δικαιοπολις εν αγρω εστιν\n"); 因此，在做输出时，是否有理由相对于另一个？我想第二个performance会更糟，但是它在多字节文字上有什么优势（或缺点）吗？编辑：这些string打印没有问题。但是我没有使用宽string函数，因为我希望能够使用printf等。所以问题在于这些印刷方式是否与以上所述情况不符？如果是这样，第二种方式有什么优势？编辑2：下面的评论，我现在知道这个程序的作品 – 我认为是不可能的： int main() { setlocale(LC_ALL, ""); wprintf(L"ο Δικαιοπολις εν αγρω εστιν\n"); // wide output freopen(NULL, "w", stdout); // lets me switch printf("ο Δικαιοπολις εν αγρω εστιν\n"); // byte output } 编辑3 ：我已经做了一些进一步的研究，看看这两种types正在发生什么。采取更简单的string： wchar_t *wides = […]

如何最好地configurationPHP来处理一个UTF-8网站: 你会推荐什么样的扩展，以及如何最好地configurationphp来创build一个使用UTF-8编码的网站。例如… 页面输出是utf-8 表单提交utf-8编码的数据 string数据的内部处理（例如，当与数据库交谈时）也都在utf-8中。看来，PHP目前还不能很好地处理多字节字符集。到目前为止，我已经认识到， mbstring看起来像是一个重要的扩展。这是值得的麻烦..？