Tag: utf 8

将utf-8文本保存为UTF8,而不是\ u转义序列

示例代码: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" 问题是:这不是人类可读的。 我的(聪明的)用户想要使用JSON转储validation甚至编辑文本文件。 (我宁愿不使用XML) 有没有办法将对象序列化为utf-8 jsonstring(而不是\ uXXXX)? 这没有帮助: >>> output = json_string.decode('string-escape') "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" 这工作,但如果任何子对象是一个python-unicode而不是utf-8,它会转储垃圾: >>> #### ok: >>> s= json.dumps( "ברי צקלה", ensure_ascii=False) >>> print json.loads(s) ברי צקלה >>> #### NOT ok: >>> d={ 1: "ברי צקלה", 2: u"ברי צקלה" } […]

我真的需要将“&”编码为“&”吗?

我在我的网站的<title>使用HTML5和UTF-8的“ & ”符号。 Google在其SERP上显示了&符号,正如其标题中的所有浏览器一样。 http://validator.w3.org给我这个: &没有开始一个字符引用。 (&可能应该已经逃过了)。 我真的需要做&amp; ? 我并不是为了validation而对我的页面进行validation,但我很好奇听到人们对此的意见,如果这很重要,为什么。

参考:为什么我的“特殊的”Unicode字符使用json_encode编码奇怪?

当使用“特殊的”Unicode字符时,当它们编码为JSON时,它们会出现怪异的垃圾: php > echo json_encode(['foo' => '馬']); {"foo":"\u99ac"} 为什么? 我的编码做错了吗? (这是一个参考性的问题,一劳永逸地澄清这个话题,因为这个问题一再出现。)

如何使用UTF-8string在PHP中使用文件系统function?

我无法使用mkdir创buildUTF-8字符的文件夹。 <?php $dir_name = "Depósito"; mkdir($dir_name ); ?> 但是,当我在Windows资源pipe理器中浏览此文件夹时,文件夹名称如下所示: Depósito 我该怎么办?

如何在PHP中输出一个UTF-8 CSV,Excel将正确读取?

我有这个非常简单的东西,只是输出一些CSV格式的东西,但它必须是UTF-8。 我在TextEdit或TextMate或Dreamweaver中打开这个文件,它正确地显示UTF-8字符,但是如果我在Excel中打开它,这是做这个愚蠢的事情,而不是。 以下是我在文档头部的内容: header("content-type:application/csv;charset=UTF-8"); header("Content-Disposition:attachment;filename=\"CHS.csv\""); 这似乎有所需的效果,除了Excel(Mac,2008)不想正确导入它。 在Excel中我没有任何select“以UTF-8打开”,所以…我有点恼火。 尽pipe很多人遇到了同样的问题,但我似乎无法在任何地方find明确的解决scheme。 我看到最多的东西是包含BOM,但是我不能确切地知道如何做到这一点。 正如你可以看到上面我只是echo这个数据,我不写任何文件。 如果需要的话,我可以这样做,我只是不是因为在这一点上似乎不需要它。 任何帮助? 更新:我试着回显BOM作为echo pack("CCC", 0xef, 0xbb, 0xbf); 我刚刚从一个正在尝试检测BOM的网站中提取。 但Excel导入时只是将这三个字符附加到第一个单元格中,而且还会混淆特殊字符。

使用UTF8编码的Excel到CSV

我有一个Excel文件,有一些西class牙文字符(撇号等),我需要转换为一个CSV文件作为导入文件使用。 但是,当我做另存为CSV时,它将损坏不是ASCII字符的“特殊”西class牙字符。 它也似乎用左右引号和长破折号,似乎来自在Mac中创buildExcel文件的原始用户。 由于CSV只是一个文本文件,我相信它可以处理UTF8编码,所以我猜这是一个Excel的限制,但我正在寻找一种方法来从Excel到CSV,并保持非ASCII字符完整。

字节顺序标记使Java中的文件读取失效

我正在尝试使用Java读取CSV文件。 一些文件可能在开始时有一个字节顺序标记,但不是全部。 当存在时,字节顺序与第一行的其余部分一起被读取,从而导致string比较的问题。 当字节顺序标记存在时,是否有简单的方法? 谢谢!

如何使用ResourceBundle在资源属性中使用UTF-8

我需要使用Java的ResourceBundle在我的资源属性中使用UTF-8。 当我直接input文本到属性文件,它显示为mojibake。 我的应用在Google App Engine上运行。 任何人都可以给我一个例子吗? 我无法得到这份工作。

在字符集之间转换文本文件的最佳方法?

什么是在字符集之间转换文本文件的最快速,最简单的工具或方法? 具体来说,我需要从UTF-8转换为ISO-8859-15,反之亦然。 一切顺利:您最喜爱的脚本语言,命令行工具或其他OS,网站等工具。 目前最好的解决scheme: 在Linux / UNIX / OS X / cygwin上: 由Troels Arvinbuild议的Gnu iconv最适合用作filter 。 这似乎是普遍可用的。 例: $ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt 正如Ben所指出的那样,有一个使用iconv的在线转换器 。 由Cheekysoftbuild议的Gnu recode ( 手动 )将转换一个或几个文件到位 。 例: $ recode UTF8..ISO-8859-15 in.txt 这个使用较短的别名: $ recode utf8..l9 in.txt Recode还支持可用于在不同行结束types和编码之间转换的表面 : 将换行从LF(Unix)转换为CR-LF(DOS): $ recode ../CR-LF in.txt Base64编码文件: $ recode […]

更改Python的默认编码?

当我从控制台运行我的应用程序时,我有许多“无法编码”和“无法解码” Python的问题。 但在Eclipse PyDev IDE中,默认的字符编码设置为UTF-8 ,我很好。 我四处寻找设置默认编码,并且有人说Python在启动时删除了sys.setdefaultencoding函数,我们不能使用它。 那么最好的解决scheme是什么?