Tag: utf 8

如何在Ruby中将string转换为UTF8

我在写一个使用Hpricot的爬虫。 它从某个网页下载string列表,然后尝试将其写入文件。 编码有问题: "\xC3" from ASCII-8BIT to UTF-8 我有在网页上呈现并以这种方式打印的项目: Développement str.encoding返回UTF-8 ,所以force_encoding('UTF-8')不起作用。 我怎样才能将其转换为可读的UTF-8?

Python DictWriter编写UTF-8编码的CSV文件

我有一个包含unicodestring的字典列表。 csv.DictWriter可以将一个字典列表写入一个CSV文件。 我希望CSV文件以UTF8编码。 csv模块无法处理将unicodestring转换为UTF8。 csv模块文档有一个将所有内容转换为UTF8的例子: : def utf_8_encoder(unicode_csv_data): for line in unicode_csv_data: yield line.encode('utf-8') 它也有一个class UnicodeWriter: 但是…我如何让DictWriter与这些工作? 难道他们不得不在自己的中间注入自己的词汇,以便在将它们写入文件之前捕获反汇编的字典并对其进行编码? 我不明白。

NSString:从string中删除UTF-8重音的简单方法?

我想改变一个句子,例如: Êtreou ne pasêtre。 C'étaitlà-bas。 会成为: Etre ou ne pas etre。 C'etait la-bas。 有没有简单的方法与NSString做到这一点? 还是我必须通过检查每个字符来自行开发?

我的PHP应用程序正确支持UTF-8吗?

我想确保我所知道的关于UTF-8的所有信息都是正确的。 我一直在尝试使用UTF-8,但是我一直在越来越多的bug和其他奇怪的事情上磕磕绊绊,这使得几乎不可能拥有100%的UTF-8站点。 我似乎错过了一个地方。 也许这里有人可以纠正我的名单或确定它,所以我不会错过任何重要的东西。 数据库 每个网站都必须在那里存储数据。 不pipe你的PHP设置是什么,你都必须configuration数据库。 如果你不能访问configuration文件,那么一旦连接,一定要确保“ SET NAMES'utf8' ”。 另外,请确保在所有表上使用utf8_ unicode_ ci 。 这假设MySQL为一个数据库,你将不得不改变其他人。 正则expression式 我做了很多正则expression式比你的普通searchreplace更复杂 。 我必须记住使用“/ u”修饰符,以便PCRE不会破坏我的string 。 然而,即使如此, 显然还是有问题的 。 string函数 所有的默认string函数(strlen(),strpos()等)都应该用看字符而不是字节的多字节string函数replace。 头文件你应该确保你的服务器为浏览器返回了正确的头文件,以便知道你正在尝试使用什么样的charset(就像你必须告诉MySQL一样)。 header('Content-Type:text / html; charset = utf-8'); 将正确的<meta>标签放在页头中也是一个好主意。 虽然实际的标题将会覆盖这个,如果他们不同。 <meta http-equiv="Content-Type" content="text/html;charset=utf-8"> 问题 当页面加载时,我是否需要将从用户代理(HTML表单的&URI)接收的所有内容转换为UTF-8,或者如果我可以保留原有的string/值,仍然可以通过这些函数运行而不会出现问题? 如果我确实需要将所有内容都转换为UTF-8,那么我应该采取哪些步骤? mb_detect_encoding似乎是为此而构build的,但是我一直在看到人们抱怨说,它并不总是工作。 mb_check_encoding也似乎有一个问题,从一个畸形的人告诉一个良好的UTF-8string。 PHP根据所使用的编码(像文件types)将内存中的string不同地存储在内存中,还是像常规的一些字符一样被存储为不同的字符(如&amp; vs&in HTML)。 chazomaticus回答这个问题: 在PHP中(至多PHP5),string只是字节序列。 没有暗示或明确的字符集与他们相关联; 这是程序员必须跟踪的东西。 如果一个非UTF-8string给一个mb_ *函数会导致一个问题? 如果一个UTFstring编码不正确会出问题(像正则expression式中的parsing错误?),还是会标记一个实体为坏(html)? 有没有机会,不正确编码的string将导致函数返回FALSE,因为string是坏的? […]

为什么.net对string使用UTF16编码,但使用utf8作为保存文件的默认值?

从这里 本质上,string使用UTF-16字符编码forms 但是,当保存vs StreamWriter时 : 这个构造函数创build一个没有字节顺序标记(BOM)的UTF-8编码的StreamWriter, 我已经看到这个样本(断开的链接删除): 它看起来像utf8是一些string较小而utf-16在一些其他string较小。 那么为什么.net使用utf16作为string的默认编码,而utf8保存文件? 谢谢。 我已经阅读了这篇着名的文章

向服务器发布UTF-8编码的数据会丢失某些字符

我正在从事包括服务器(JavaEE应用程序)和客户端(Android应用程序)通信的项目。 XML作为HTTP请求(名为“xml”)的POST参数之一发送。 我传递给服务器的其他POST参数也很less,但在下面的函数中,为了简单起见,我将它们移除了。 发生的问题是某些字母没有正确地传送到服务器 – 例如字符Ű (请注意,这不是德文,顺便说一下,它是正确传送的)。 代码发送如下: private String postSyncXML(String XML) { String url = "http://10.0.2.2:8080/DebugServlet/DebugServlet"; HttpClient httpclient = new DefaultHttpClient(); List<NameValuePair> nameValuePairs = new ArrayList<NameValuePair>(); nameValuePairs.add(new BasicNameValuePair("xml",XML)); UrlEncodedFormEntity form; try { form = new UrlEncodedFormEntity(nameValuePairs); form.setContentEncoding(HTTP.UTF_8); HttpPost httppost = new HttpPost(url); httppost.setEntity(form); HttpResponse response = (HttpResponse) httpclient .execute(httppost); HttpEntity resEntity = response.getEntity(); String […]

PDO UTF-8字符问题

我目前正在做一个项目,而不是使用普通的MySQL查询,我想我会继续学习如何使用PDO。 我有一个叫做参赛者的表,数据库,表和所有的列都在utf-8中。 我在参赛桌上有十个参赛作品,他们的专栏“名字”中包含åäö等字。 现在,当我从数据库中获取一个条目,并且var_dump这个名字的时候,我得到了一个好的结果,一个包含所有特殊字符的string。 但是我需要做的是按字符分割string,把它们放到一个数组中,然后我就可以随机播放。 例如,我有这个string: testingÅÄÖTåän 而当我运行str_split我得到每个字符在它自己的密钥在一个数组中。 唯一的问题是所有的特殊字符显示为: ,这意味着数组将如下所示: Array ( [0] => T [1] => e [2] => s [3] => t [4] => [5] => [6] => [7] => [8] => [9] => [10] => [11] => [12] => T [13] => [14] => [15] => [16] => [17] => n ) […]

如何更改csharp项目(visual studio / msbuild计算机)中的源文件编码?

有没有办法迫使VS始终使用Unicode,而不是奇怪的ISO的东西? 我正在使用Vista上的Visual Studio 2008(波兰语区域)开发winapp csproject。 当我在Win Server 2003(英文区域设置)上生成项目时出现问题 – 然后波兰变音符号消失了。 我调查了这个问题是由不正确的源文件编码引起的。 它看起来源文件不使用UTF-8编码。

Ruby方法从UTF-8国际字符中删除重音符号

我正在尝试创build一个string的“标准化”副本,以帮助减less数据库中的重复名称。 名称包含许多国际字符(即重音字母),我想创build一个删除了重音的副本。 我遇到下面的方法,但不能得到它的工作。 我似乎无法findUnicode Hacks插件是什么。 # Utility method that retursn an ASCIIfied, downcased, and sanitized string. # It relies on the Unicode Hacks plugin by means of String#chars. We assume # $KCODE is 'u' in environment.rb. By now we support a wide range of latin # accented letters, based on the Unicode Character Palette bundled […]

我应该在Python3中使用编码声明吗?

我试图切换python3。 我相信默认情况下是utf8编码。 我仍然应该在开始每个文件使用编码声明? # -*- coding: utf-8 -*-