Tag: utf 8

真的很好，不好的UTF-8例子testing数据: 因此，我们有XSS备忘单来testing我们的XSS过滤 – 但除了一个良性的例子页面，我找不到任何邪恶或畸形的testing数据，以确保我的UTF-8代码可以处理错过的数据。我在哪里可以find一些不错的数据来testing？或者什么是一个棘手的字符序列？

在.NET中将对象序列化为UTF-8 XML: 正确的对象处置删除简洁，但我很震惊，如果这是最简单的方法编码对象为UTF-8在内存中。那里有一个更简单的方法吗？ var serializer = new XmlSerializer(typeof(SomeSerializableObject)); var memoryStream = new MemoryStream(); var streamWriter = new StreamWriter(memoryStream, System.Text.Encoding.UTF8); serializer.Serialize(streamWriter, entry); memoryStream.Seek(0, SeekOrigin.Begin); var streamReader = new StreamReader(memoryStream, System.Text.Encoding.UTF8); var utf8EncodedXml = streamReader.ReadToEnd();

UTF-8字节为string: 假设我刚刚使用BufferedInputStream将UTF-8编码文本文件的字节读入字节数组中。我知道我可以使用下面的例程将字节转换为一个string，但是这样做比单纯遍历字节和转换每个字节更有效率/更智能吗？ public String openFileToString(byte[] _bytes) { String file_string = ""; for(int i = 0; i < _bytes.length; i++) { file_string += (char)_bytes[i]; } return file_string; }

在Django中保存unicodestring时，MySQL“错误的string值”错误: 尝试将first_name，last_name保存到Django的auth_user模型时，出现奇怪的错误消息。失败的例子 user = User.object.create_user(username, email, password) user.first_name = u'Rytis' user.last_name = u'Slatkevičius' user.save() >>> Incorrect string value: '\xC4\x8Dius' for column 'last_name' at row 104 user.first_name = u'Валерий' user.last_name = u'Богданов' user.save() >>> Incorrect string value: '\xD0\x92\xD0\xB0\xD0\xBB…' for column 'first_name' at row 104 user.first_name = u'Krzysztof' user.last_name = u'Szukiełojć' user.save() >>> Incorrect string value: '\xC5\x82oj\xC4\x87' […]

php：当我试图写UTF-8的时候，使用DomDocument来写它的hex符号: 当我尝试使用DomDocument将UTF-8string写入XML文件时，它实际上会写入string的hex表示法而不是string本身。例如： ירושלים 而不是：ירושלים 任何想法如何解决这个问题？

用Python编写UTF-8string到MySQL: 我正在尝试将用户帐户数据从Active Directory推送到我们的MySQL服务器。这工作完美无瑕，但不知怎的，string最终显示了元音变音和其他特殊字符的编码版本。 Active Directory使用此示例格式返回一个string： M\xc3\xbcller 这实际上是Müller的UTF-8编码，但我想将Müller写入我的数据库而不是M\xc3\xbcller 。我尝试使用此行转换string，但它导致在数据库中相同的string： tempEntry[1] = tempEntry[1].decode("utf-8") 如果我在python控制台中运行print "M\xc3\xbcller".decode("utf-8") ，输出是正确的。有没有办法以正确的方式插入这个string？我需要这种特定的格式为一个Web开发人员谁想要这个确切的格式，我不知道他为什么不能够直接使用PHP转换string。其他信息：我正在使用MySQLdb; 表和列编码是utf8_general_ci

使用Swift的C API: 我试图跟踪networking状态。我经历了FXReachability的代码。具体如下的方法。 – (void)setHost:(NSString *)host { if (host != _host) { if (_reachability) { SCNetworkReachabilityUnscheduleFromRunLoop(_reachability, CFRunLoopGetMain(), kCFRunLoopCommonModes); CFRelease(_reachability); } _host = [host copy]; _status = FXReachabilityStatusUnknown; _reachability = SCNetworkReachabilityCreateWithName(kCFAllocatorDefault, [_host UTF8String]); SCNetworkReachabilityContext context = { 0, ( __bridge void *)self, NULL, NULL, NULL }; SCNetworkReachabilitySetCallback(_reachability, ONEReachabilityCallback, &context); SCNetworkReachabilityScheduleWithRunLoop(_reachability, CFRunLoopGetMain(), kCFRunLoopCommonModes); } } 它所做的是不断检查到指定主机的连接。我试图将此方法转换为Swift，并遇到一些问题。 […]

如何将UTF-8string转换为Unicode？: 我有显示UTF-8编码字符的string，我想将其转换回Unicode。现在，我的实现如下： public static string DecodeFromUtf8(this string utf8String) { // read the string as UTF-8 bytes. byte[] encodedBytes = Encoding.UTF8.GetBytes(utf8String); // convert them into unicode bytes. byte[] unicodeBytes = Encoding.Convert(Encoding.UTF8, Encoding.Unicode, encodedBytes); // builds the converted string. return Encoding.Unicode.GetString(encodedBytes); } 我正在玩"déjà"这个词。我已经通过这个在线工具将它转换为UTF-8，于是我开始用string"dÃ©jÃ"来testing我的方法。不幸的是，在这个实现中，string保持不变。我错在哪里？

如何sortingUTF-8string的数组？: 我currentyl没有线索如何sorting在PHP中包含UTF-8编码string的数组。该数组来自LDAP服务器，所以通过数据库sorting（没有问题）是没有解决scheme。以下不能在我的Windows开发机器上工作（虽然我认为这应该是至less一个可能的解决scheme）： $array=array('Birnen', 'Äpfel', 'Ungetüme', 'Apfel', 'Ungetiere', 'Österreich'); $oldLocal=setlocale(LC_COLLATE, "0"); var_dump(setlocale(LC_COLLATE, 'German_Germany.65001')); usort($array, 'strcoll'); var_dump(setlocale(LC_COLLATE, $oldLocal)); var_dump($array); 输出是： string(20) "German_Germany.65001" string(1) "C" array(6) { [0]=> string(6) "Birnen" [1]=> string(9) "Ungetiere" [2]=> string(6) "Äpfel" [3]=> string(5) "Apfel" [4]=> string(9) "Ungetüme" [5]=> string(11) "Österreich" } 这是完全废话。使用1252作为setlocale()的代码页提供了另一个输出，但仍然是一个明显错误的： string(19) "German_Germany.1252" string(1) "C" array(6) { [0]=> string(11) "Österreich" […]