Tag: 字符编码

如何检测文本文件的字符编码?

我尝试检测在我的文件中使用哪种字符编码。 我试着用这个代码来获得标准的编码 public static Encoding GetFileEncoding(string srcFile) { // *** Use Default of Encoding.Default (Ansi CodePage) Encoding enc = Encoding.Default; // *** Detect byte order mark if any – otherwise assume default byte[] buffer = new byte[5]; FileStream file = new FileStream(srcFile, FileMode.Open); file.Read(buffer, 0, 5); file.Close(); if (buffer[0] == 0xef && buffer[1] == 0xbb […]

存储的数据奇怪的字符编码,旧的脚本显示他们罚款新的没有

我正在尝试重写一个旧网站。 它是使用perso /阿拉伯字符的波斯语。 CREATE DATABASE `db` DEFAULT CHARACTER SET utf8 COLLATE utf8_persian_ci; USE `db`; 几乎所有我的表/列COLLATE都设置为utf8_persian_ci 我使用codeigniter为我的新脚本,我有 'char_set' => 'utf8', 'dbcollat' => 'utf8_persian_ci', 在数据库设置中,那里没有问题。 所以这里是奇怪的部分 旧的脚本正在使用某种名为TUBADBENGINE或TUBA DB ENGINE …没什么特别的。 当我使用旧脚本在数据库(波斯语)中input一些数据时,当我查看数据库时,字符被存储为عمران 。 旧脚本获取/显示数据正常,但新脚本显示与数据库相同的怪异字体/字符集 所以,当我inputاااا ,数据库存储的数据看起来像عمرا٠,当我在新脚本中获取它我看到عمراÙ但在旧的脚本我看到اااا CREATE TABLE IF NOT EXISTS `tnewsgroups` ( `ID` int(11) NOT NULL AUTO_INCREMENT, `fName` varchar(200) COLLATE utf8_persian_ci DEFAULT NULL, PRIMARY KEY (`ID`) […]

写Unicode文本到文本文件?

我从Google文档中提取数据,处理数据,并将其写入文件(最终我将粘贴到Wordpress页面中)。 它有一些非ASCII符号。 如何将这些安全地转换为可用于HTML源代码的符号? 目前我正在将所有内容都转换为Unicode,并将它们连接到Pythonstring中,然后执行下列操作: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最后一行有一个编码错误: UnicodeDecodeError:'ascii'编解码器无法解码位于12286的字节0xa0:序号不在范围内(128) 部分解决scheme: 这个Python运行没有错误: row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8") 但是,如果我打开实际的文本文件,我会看到很多符号: Qur‚Äôan 也许我需要写一个文本文件以外的东西?

Unicode,UTF,ASCII,ANSI格式的区别

Unicode , UTF8 , UTF7 , UTF16 , UTF32 , ASCII和ANSI编码有什么区别? 这对程序员有什么帮助?

Spring MVC UTF-8编码

目前我正在尝试使用Spring MVC。 在尝试的时候遇到了一个编码问题。 我想在JSP页面上显示UTF-8字符,所以我添加了一个带有UTF-8字符的string到我的ModelAndView。 它看起来像这样: @Controller public class HomeController { private static final Logger logger = LoggerFactory.getLogger(HomeController.class); @RequestMapping(value="/", method=RequestMethod.GET) public ModelAndView home() { logger.info("Welcome home!"); return new ModelAndView("home", "utftest", "ölm"); } } 在JSP页面上,我只想显示带有UTF-8字符的string,如下所示: <%@ page language="java" pageEncoding="UTF-8"%> <%@ page contentType="text/html;charset=UTF-8" %> <%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c" %> <%@ page session="false" %> <html> <head> <meta http-equiv="Content-Type" content="text/html; […]

谁在S​​pring MVC中设置响应内容types(@ResponseBody)

我在我的Annotation驱动的Spring MVC Java web应用程序上运行jetty web服务器(目前在maven jetty插件中)。 我想用一个控制器方法来做一些AJAX支持,只返回string帮助文本。 资源采用UTF-8编码,string也是如此,但是我的服务器响应自带 content-encoding: text/plain;charset=ISO-8859-1 即使当我的浏览器发送 Accept-Charset windows-1250,utf-8;q=0.7,*;q=0.7 我用某种方式默认configuration的spring 我已经find了将这个bean添加到configuration的提示,但是我认为它没有被使用,因为它说它不支持编码,而是使用默认的编码。 <bean class="org.springframework.http.converter.StringHttpMessageConverter"> <property name="supportedMediaTypes" value="text/plain;charset=UTF-8" /> </bean> 我的控制器代码是(请注意,这种响应types的变化不适合我): @RequestMapping(value = "ajax/gethelp") public @ResponseBody String handleGetHelp(Locale loc, String code, HttpServletResponse response) { log.debug("Getting help for code: " + code); response.setContentType("text/plain;charset=UTF-8"); String help = messageSource.getMessage(code, null, loc); log.debug("Help is: " + help); […]

如何在cmd.exe默认Unicode Unicode字符集?

866字符集默认情况下安装在Windows'cmd.exe与光荣的Unicode相比较差和不方便。 我可以在默认情况下安装Unicode或将cmd.exereplace为另一个控制台,并使其成为默认值,以便程序使用它而不是cmd.exe? 我知道chcp 65001仅在运行控制台中更改编码。 我想在系统级别更改字符集。

UTF-8与Unicode

我听到了人们的意见冲突 – 根据维基百科的说法, 请看这里 。 他们是一样的东西,不是吗? 有人可以澄清?

我如何在MySQL中find非ASCII字符?

我正在使用从Excel导入一些数据的MySQL数据库。 数据包含非ASCII字符(如破折号等)以及隐藏的回车符或换行符。 有没有办法使用MySQL来查找这些logging?

PHP:在不知道原始字符集的情况下将任何string转换为UTF-8,或者至less尝试一下

我有一个应用程序,处理来自世界各地的客户,自然,我希望进入我的数据库的一切都是UTF-8编码。 对我来说主要的问题是我不知道什么编码的string的来源将是 – 它可能是从一个文本框(使用<form accept-charset="utf-8">只有在用户实际上是提交表单),或者它可能来自上传的文本文件,所以我实在无法控制input。 我需要的是一个函数或类,确保进入我的数据库的东西,尽可能地,UTF-8编码。 我试过iconv(mb_detect_encoding($text), "UTF-8", $text); 但有问题(如果input是“未婚妻”,则返回“未婚夫”)。 我已经尝试了很多东西= / 对于file upload,我喜欢让最终用户指定他们使用的编码,并向他们展示输出结果的预览,但是这并不能帮助防止恶意的黑客(事实上,这可能会使他们的生活更容易一点)。 我已经阅读了关于这个主题的其他SO问题,但他们似乎都有微妙的差别,例如“我需要parsingRSS提要”或“我从网站上抓取数据”(或者实际上,“你不能”)。 但是一定有一些东西至less有一个很好的尝试 !