Tag: utf 8

JSON字符编码 – 是由浏览器支持的UTF-8还是应该使用数字转义序列?

我正在写一个使用json来表示资源的webservice,而且我有点卡在考虑编码json的最佳方法。 阅读json rfc( http://www.ietf.org/rfc/rfc4627.txt )很清楚,首选编码是utf-8。 但是rfc也描述了一个用于指定字符的string转义机制。 我认为这通常会被用来转义非ASCII字符,从而使得由此产生的utf-8有效的ascii。 假设我有一个包含非ASCII字符(代码点)的jsonstring。 我的web服务应该只是UTF-8编码,并返回它,或者它应该逃脱所有这些非ASCII字符,并返回纯粹的ASCII码? 我希望浏览器能够使用jsonp或eval执行结果。 这是否影响了这个决定? 我对各种浏览器对utf-8的javascript支持的知识缺乏。 编辑:我想澄清,我如何编码结果的主要关注是关于浏览器处理的结果。 我读过的内容表明,当使用JSONP时,浏览器可能对编码敏感。 我还没有find任何关于这个主题的真正的信息,所以我将不得不开始做一些testing,看看会发生什么。 理想情况下,我只想逃避那些需要的字符,只是utf-8编码的结果。

UnicodeEncodeError:'charmap'编解码器不能编码字符'\ u2010':字符映射到<undefined>

当我试图打印从python 3.4中使用selenium所请求的网站上获得的“Á”时,我总是收到UnicodeEncodeError。 我已经定义在我的.py文件的顶部 # -*- coding: utf-8 -*- def是这样的: from selenium import webdriver b = webdriver.Firefox() b.get('http://fisica.uniandes.edu.co/personal/profesores-de-planta') dataProf = b.find_elements_by_css_selector('td[width="508"]') for dato in dataProf: print(datos.text) 和例外: Traceback (most recent call last): File "C:/Users/Andres/Desktop/scrap/scrap.py", line 444, in <module> dar_p_fisica() File "C:/Users/Andres/Desktop/scrap/scrap.py", line 390, in dar_p_fisica print(datos.text) #.encode().decode('ascii', 'ignore') File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] […]

PHP搞乱HTML字符集编码

我有这个很奇怪的问题。 我有一个网站,包含一些德国的信件,当它只是没有PHP的HTML符号属性显示与编码时,我把它改为UTF-8他们不显示,而不是Ö我得到 。 当我把PHP放在PHP里面,用Zend工作室在Wamp上用charset = iso-8859-1编码启动它时,我得到了ï而不是Ö(我想补充一点,这个Ö是一个单选button的值) 。 当它在一个 标记显示正确。 你能告诉我如何解决这个问题。 我看看其他网站,他们有UTF-8编码和正确显示相同的符号。 我试图改变PHP的edior编码,但它并不重要,我认为 – > Zend Studio的编辑器中的一切正常显示…提前谢谢。

如何检查一个文件是否有效的UTF-8?

我正在处理一些应该是有效的UTF-8数据文件,但不是,这会导致parsing器(不在我的控制下)失败。 我想添加一个预validationUTF-8格式良好的数据的阶段,但我还没有find一个实用程序来帮助做到这一点。 在W3C有一个networking服务似乎已经死了,我发现了一个仅用于Windows的validation工具 ,可以报告无效的UTF-8文件,但不报告要修复的行/字符。 我会很高兴与一个工具,我可以投入和使用(理想的跨平台),或ruby/ perl脚本,我可以使我的数据加载过程的一部分。

如何在Ruby中replace重音拉丁字符?

我有一个ActiveRecord模型, Foo ,它有一个name字段。 我希望用户能够按名称search,但我希望search忽略大小写和任何重音符号。 因此,我还存储了一个canonical_name字段来search: class Foo validates_presence_of :name before_validate :set_canonical_name private def set_canonical_name self.canonical_name ||= canonicalize(self.name) if self.name end def canonicalize(x) x.downcase. # something here end end 我需要填写“这里的东西”,以取代重音字符。 还有比这更好的吗? x.downcase.gsub(/[àáâãäå]/,'a').gsub(/æ/,'ae').gsub(/ç/, 'c').gsub(/[èéêë]/,'e')…. 而且,对于这个问题,因为我不在Ruby 1.9上,所以我不能把这些Unicode文字放在我的代码中。 实际的正则expression式看起来更丑陋。

将Visual Studio项目中的所有文件保存为UTF-8

我想知道是否有可能将Visual Studio 2008项目中的所有文件保存为特定的字符编码。 我得到了一个混合编码的解决scheme,我想使他们都一样(带签名的UTF-8)。 我知道如何保存单个文件,但是项目中的所有文件如何?

Light C Unicode库

我正在寻找一个小C库来处理utf8string。 具体来说,基于统一码分隔符进行分词以用于词干分析algorithm。 相关post提示: ICU http://www.icu-project.org/ (我发现它太笨重,因为我在embedded式设备上的目的) UTF8-CPP: http : //utfcpp.sourceforge.net/ (优秀,但C ++不C) 有没有人发现任何平台独立,小代码库处理Unicodestring(不需要做归化)。 任何意见将不胜感激。

Outlook自动清理我的换行符,并搞砸了我的电子邮件格式

我使用dotnet框架发送电子邮件。 这里是我用来创build消息的模板: Date of Hire: %HireDate% Annual Salary: %AnnualIncome% Reason for Request: %ReasonForRequest% Name of Voluntary Employee: %FirstName% %LastName% Total Coverage Applied For: %EECoverageAmount% Guaranteed Coverage Portion: %GICoveragePortion% Amount Subject to Medical Evident: %GIOverage% 当Outlook收到邮件时,Outlook会告诉我:“此邮件中的额外换行符被删除”。 消息显示如下: Date of Hire: 9/28/2001 Annual Salary: $100,000 Reason for Request: New Hire Name of Voluntary Employee: Ronald Weasley Total […]

为什么Python不能识别我的UTF-8编码的源文件?

这是一个非ASCII字符的tmp.py: if __name__ == "__main__": s = 'ß' print(s) 运行它我得到以下错误: Traceback (most recent call last): File ".\tmp.py", line 3, in <module> print(s) File "C:\Python32\lib\encodings\cp866.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_map)[0] UnicodeEncodeError: 'charmap' codec can't encode character '\xdf' in position 0: character maps to <undefined> Python文档说 : 默认情况下,Python源文件被视为编码为UTF-8 … 我检查编码的方法是使用Firefox(也许有人会build议更明显的东西)。 我在Firefox中打开tmp.py,如果我select查看 – >字符编码 – > Unicode(UTF-8),它看起来没问题,这就是它在这个问题上面的样子(wth?符号)。 […]

在PHP中检测文件编码

我有一个脚本,它将多个文件合并为一个文件,当其中一个文件具有UTF8编码时,它会中断。 我想我应该在读取文件时使用utf8_decode()函数,但是我不知道如何判断需要解码。 我的代码基本上是: $output = ''; foreach ($files as $filename) { $output .= file_get_contents($filename) . "\n"; } file_put_contents('combined.txt', $output); 目前,在UTF8文件的开始处,它将这些字符添加到输出中: