Tag: 字符编码

如何检测文本文件的字符编码？: 我尝试检测在我的文件中使用哪种字符编码。我试着用这个代码来获得标准的编码 public static Encoding GetFileEncoding(string srcFile) { // *** Use Default of Encoding.Default (Ansi CodePage) Encoding enc = Encoding.Default; // *** Detect byte order mark if any – otherwise assume default byte[] buffer = new byte[5]; FileStream file = new FileStream(srcFile, FileMode.Open); file.Read(buffer, 0, 5); file.Close(); if (buffer[0] == 0xef && buffer[1] == 0xbb […]

存储的数据奇怪的字符编码，旧的脚本显示他们罚款新的没有: 我正在尝试重写一个旧网站。它是使用perso /阿拉伯字符的波斯语。 CREATE DATABASE `db` DEFAULT CHARACTER SET utf8 COLLATE utf8_persian_ci; USE `db`; 几乎所有我的表/列COLLATE都设置为utf8_persian_ci 我使用codeigniter为我的新脚本，我有 'char_set' => 'utf8', 'dbcollat' => 'utf8_persian_ci', 在数据库设置中，那里没有问题。所以这里是奇怪的部分旧的脚本正在使用某种名为TUBADBENGINE或TUBA DB ENGINE …没什么特别的。当我使用旧脚本在数据库（波斯语）中input一些数据时，当我查看数据库时，字符被存储为Ø¹Ù…Ø±Ø§Ù† 。旧脚本获取/显示数据正常，但新脚本显示与数据库相同的怪异字体/字符集所以，当我inputاااا ，数据库存储的数据看起来像Ø¹Ù…Ø±Ø§Ù ，当我在新脚本中获取它我看到Ø¹Ù…Ø±Ø§Ù但在旧的脚本我看到اااا CREATE TABLE IF NOT EXISTS `tnewsgroups` ( `ID` int(11) NOT NULL AUTO_INCREMENT, `fName` varchar(200) COLLATE utf8_persian_ci DEFAULT NULL, PRIMARY KEY (`ID`) […]

写Unicode文本到文本文件？: 我从Google文档中提取数据，处理数据，并将其写入文件（最终我将粘贴到Wordpress页面中）。它有一些非ASCII符号。如何将这些安全地转换为可用于HTML源代码的符号？目前我正在将所有内容都转换为Unicode，并将它们连接到Pythonstring中，然后执行下列操作： import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最后一行有一个编码错误： UnicodeDecodeError：'ascii'编解码器无法解码位于12286的字节0xa0：序号不在范围内（128）部分解决scheme：这个Python运行没有错误： row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8") 但是，如果我打开实际的文本文件，我会看到很多符号： Qur‚Äôan 也许我需要写一个文本文件以外的东西？

Unicode，UTF，ASCII，ANSI格式的区别: Unicode ， UTF8 ， UTF7 ， UTF16 ， UTF32 ， ASCII和ANSI编码有什么区别？这对程序员有什么帮助？

Spring MVC UTF-8编码: 目前我正在尝试使用Spring MVC。在尝试的时候遇到了一个编码问题。我想在JSP页面上显示UTF-8字符，所以我添加了一个带有UTF-8字符的string到我的ModelAndView。它看起来像这样： @Controller public class HomeController { private static final Logger logger = LoggerFactory.getLogger(HomeController.class); @RequestMapping(value="/", method=RequestMethod.GET) public ModelAndView home() { logger.info("Welcome home!"); return new ModelAndView("home", "utftest", "ölm"); } } 在JSP页面上，我只想显示带有UTF-8字符的string，如下所示： <%@ page language="java" pageEncoding="UTF-8"%> <%@ page contentType="text/html;charset=UTF-8" %> <%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c" %> <%@ page session="false" %> <html> <head> <meta http-equiv="Content-Type" content="text/html; […]

谁在Spring MVC中设置响应内容types（@ResponseBody）: 我在我的Annotation驱动的Spring MVC Java web应用程序上运行jetty web服务器（目前在maven jetty插件中）。我想用一个控制器方法来做一些AJAX支持，只返回string帮助文本。资源采用UTF-8编码，string也是如此，但是我的服务器响应自带 content-encoding: text/plain;charset=ISO-8859-1 即使当我的浏览器发送 Accept-Charset windows-1250,utf-8;q=0.7,*;q=0.7 我用某种方式默认configuration的spring 我已经find了将这个bean添加到configuration的提示，但是我认为它没有被使用，因为它说它不支持编码，而是使用默认的编码。 <bean class="org.springframework.http.converter.StringHttpMessageConverter"> <property name="supportedMediaTypes" value="text/plain;charset=UTF-8" /> </bean> 我的控制器代码是（请注意，这种响应types的变化不适合我）： @RequestMapping(value = "ajax/gethelp") public @ResponseBody String handleGetHelp(Locale loc, String code, HttpServletResponse response) { log.debug("Getting help for code: " + code); response.setContentType("text/plain;charset=UTF-8"); String help = messageSource.getMessage(code, null, loc); log.debug("Help is: " + help); […]

如何在cmd.exe默认Unicode Unicode字符集？: 866字符集默认情况下安装在Windows'cmd.exe与光荣的Unicode相比较差和不方便。我可以在默认情况下安装Unicode或将cmd.exereplace为另一个控制台，并使其成为默认值，以便程序使用它而不是cmd.exe？我知道chcp 65001仅在运行控制台中更改编码。我想在系统级别更改字符集。

我如何在MySQL中find非ASCII字符？: 我正在使用从Excel导入一些数据的MySQL数据库。数据包含非ASCII字符（如破折号等）以及隐藏的回车符或换行符。有没有办法使用MySQL来查找这些logging？

PHP：在不知道原始字符集的情况下将任何string转换为UTF-8，或者至less尝试一下: 我有一个应用程序，处理来自世界各地的客户，自然，我希望进入我的数据库的一切都是UTF-8编码。对我来说主要的问题是我不知道什么编码的string的来源将是 – 它可能是从一个文本框（使用<form accept-charset="utf-8">只有在用户实际上是提交表单），或者它可能来自上传的文本文件，所以我实在无法控制input。我需要的是一个函数或类，确保进入我的数据库的东西，尽可能地，UTF-8编码。我试过iconv(mb_detect_encoding($text), "UTF-8", $text); 但有问题（如果input是“未婚妻”，则返回“未婚夫”）。我已经尝试了很多东西= / 对于file upload，我喜欢让最终用户指定他们使用的编码，并向他们展示输出结果的预览，但是这并不能帮助防止恶意的黑客（事实上，这可能会使他们的生活更容易一点）。我已经阅读了关于这个主题的其他SO问题，但他们似乎都有微妙的差别，例如“我需要parsingRSS提要”或“我从网站上抓取数据”（或者实际上，“你不能”）。但是一定有一些东西至less有一个很好的尝试！