Tag: utf 8

真的很好,不好的UTF-8例子testing数据

因此,我们有XSS备忘单来testing我们的XSS过滤 – 但除了一个良性的例子页面,我找不到任何邪恶或畸形的testing数据,以确保我的UTF-8代码可以处理错过的数据。 我在哪里可以find一些不错的数据来testing? 或者什么是一个棘手的字符序列?

在.NET中将对象序列化为UTF-8 XML

正确的对象处置删除简洁,但我很震惊,如果这是最简单的方法编码对象为UTF-8在内存中。 那里有一个更简单的方法吗? var serializer = new XmlSerializer(typeof(SomeSerializableObject)); var memoryStream = new MemoryStream(); var streamWriter = new StreamWriter(memoryStream, System.Text.Encoding.UTF8); serializer.Serialize(streamWriter, entry); memoryStream.Seek(0, SeekOrigin.Begin); var streamReader = new StreamReader(memoryStream, System.Text.Encoding.UTF8); var utf8EncodedXml = streamReader.ReadToEnd();

UTF-8字节为string

假设我刚刚使用BufferedInputStream将UTF-8编码文本文件的字节读入字节数组中。 我知道我可以使用下面的例程将字节转换为一个string,但是这样做比单纯遍历字节和转换每个字节更有效率/更智能吗? public String openFileToString(byte[] _bytes) { String file_string = ""; for(int i = 0; i < _bytes.length; i++) { file_string += (char)_bytes[i]; } return file_string; }

在Django中保存unicodestring时,MySQL“错误的string值”错误

尝试将first_name,last_name保存到Django的auth_user模型时,出现奇怪的错误消息。 失败的例子 user = User.object.create_user(username, email, password) user.first_name = u'Rytis' user.last_name = u'Slatkevičius' user.save() >>> Incorrect string value: '\xC4\x8Dius' for column 'last_name' at row 104 user.first_name = u'Валерий' user.last_name = u'Богданов' user.save() >>> Incorrect string value: '\xD0\x92\xD0\xB0\xD0\xBB…' for column 'first_name' at row 104 user.first_name = u'Krzysztof' user.last_name = u'Szukiełojć' user.save() >>> Incorrect string value: '\xC5\x82oj\xC4\x87' […]

php:当我试图写UTF-8的时候,使用DomDocument来写它的hex符号

当我尝试使用DomDocument将UTF-8string写入XML文件时,它实际上会写入string的hex表示法而不是string本身。 例如: ירושלים 而不是:ירושלים 任何想法如何解决这个问题?

用Python编写UTF-8string到MySQL

我正在尝试将用户帐户数据从Active Directory推送到我们的MySQL服务器。 这工作完美无瑕,但不知怎的,string最终显示了元音变音和其他特殊字符的编码版本。 Active Directory使用此示例格式返回一个string: M\xc3\xbcller 这实际上是Müller的UTF-8编码,但我想将Müller写入我的数据库而不是M\xc3\xbcller 。 我尝试使用此行转换string,但它导致在数据库中相同的string: tempEntry[1] = tempEntry[1].decode("utf-8") 如果我在python控制台中运行print "M\xc3\xbcller".decode("utf-8") ,输出是正确的。 有没有办法以正确的方式插入这个string? 我需要这种特定的格式为一个Web开发人员谁想要这个确切的格式,我不知道他为什么不能够直接使用PHP转换string。 其他信息:我正在使用MySQLdb; 表和列编码是utf8_general_ci

使用Swift的C API

我试图跟踪networking状态。 我经历了FXReachability的代码。 具体如下的方法。 – (void)setHost:(NSString *)host { if (host != _host) { if (_reachability) { SCNetworkReachabilityUnscheduleFromRunLoop(_reachability, CFRunLoopGetMain(), kCFRunLoopCommonModes); CFRelease(_reachability); } _host = [host copy]; _status = FXReachabilityStatusUnknown; _reachability = SCNetworkReachabilityCreateWithName(kCFAllocatorDefault, [_host UTF8String]); SCNetworkReachabilityContext context = { 0, ( __bridge void *)self, NULL, NULL, NULL }; SCNetworkReachabilitySetCallback(_reachability, ONEReachabilityCallback, &context); SCNetworkReachabilityScheduleWithRunLoop(_reachability, CFRunLoopGetMain(), kCFRunLoopCommonModes); } } 它所做的是不断检查到指定主机的连接。 我试图将此方法转换为Swift,并遇到一些问题。 […]

如何将UTF-8string转换为Unicode?

我有显示UTF-8编码字符的string,我想将其转换回Unicode。 现在,我的实现如下: public static string DecodeFromUtf8(this string utf8String) { // read the string as UTF-8 bytes. byte[] encodedBytes = Encoding.UTF8.GetBytes(utf8String); // convert them into unicode bytes. byte[] unicodeBytes = Encoding.Convert(Encoding.UTF8, Encoding.Unicode, encodedBytes); // builds the converted string. return Encoding.Unicode.GetString(encodedBytes); } 我正在玩"déjà"这个词。 我已经通过这个在线工具将它转换为UTF-8,于是我开始用string"déjÃ"来testing我的方法。 不幸的是,在这个实现中,string保持不变。 我错在哪里?

如何sortingUTF-8string的数组?

我currentyl没有线索如何sorting在PHP中包含UTF-8编码string的数组。 该数组来自LDAP服务器,所以通过数据库sorting(没有问题)是没有解决scheme。 以下不能在我的Windows开发机器上工作(虽然我认为这应该是至less一个可能的解决scheme): $array=array('Birnen', 'Äpfel', 'Ungetüme', 'Apfel', 'Ungetiere', 'Österreich'); $oldLocal=setlocale(LC_COLLATE, "0"); var_dump(setlocale(LC_COLLATE, 'German_Germany.65001')); usort($array, 'strcoll'); var_dump(setlocale(LC_COLLATE, $oldLocal)); var_dump($array); 输出是: string(20) "German_Germany.65001" string(1) "C" array(6) { [0]=> string(6) "Birnen" [1]=> string(9) "Ungetiere" [2]=> string(6) "Äpfel" [3]=> string(5) "Apfel" [4]=> string(9) "Ungetüme" [5]=> string(11) "Österreich" } 这是完全废话。 使用1252作为setlocale()的代码页提供了另一个输出,但仍然是一个明显错误的: string(19) "German_Germany.1252" string(1) "C" array(6) { [0]=> string(11) "Österreich" […]

可以用Unicode映射多less个字符?

我要求统计所有可能的有效组合的计数与解释。 我知道一个字符可以被编码为1,2,3或4个字节。 我也不明白为什么连续字节有限制,即使该字符的起始字节清除应该多长时间。