Tag: unicode

为什么这个Pythonstring的大小在一个失败的int转换上发生了变化: 从这里的鸣叫： import sys x = 'ñ' print(sys.getsizeof(x)) int(x) #throws an error print(sys.getsizeof(x)) 我们得到74，然后77字节的两个getsizeof调用。看起来我们正在从失败的int调用中向对象添加3个字节。更多来自twitter的例子（你可能需要重新启动python重新设置为74）： x = 'ñ' y = 'ñ' int(x) print(sys.getsizeof(y)) 77！ print(sys.getsizeof('ñ')) int('ñ') print(sys.getsizeof('ñ')) 74，然后77。

Java相当于JavaScript的encodeURIComponent产生相同的输出？: 我一直在尝试各种各样的Java代码试图想出一些东西，将编码包含引号，空格和“异国情调”的Unicode字符的string，并产生与JavaScript的encodeURIComponent函数相同的输出。我的酷刑testingstring是： “A”B±“ 如果我在Firebug中input以下JavaScript语句： encodeURIComponent('"A" B ± "'); – 那么我得到： "%22A%22%20B%20%C2%B1%20%22" 这是我的小testingJava程序： import java.io.UnsupportedEncodingException; import java.net.URLEncoder; public class EncodingTest { public static void main(String[] args) throws UnsupportedEncodingException { String s = "\"A\" B ± \""; System.out.println("URLEncoder.encode returns " + URLEncoder.encode(s, "UTF-8")); System.out.println("getBytes returns " + new String(s.getBytes("UTF-8"), "ISO-8859-1")); } } 这个程序输出： URLEncoder.encode返回％22A％22 + B +％C2％B1 […]

正则expression式：什么是InCombiningDiacriticalMarks？: 下面的代码是非常有名的将重音字符转换为纯文本： Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); 我用这个replace了我的“手工制造”方法，但我需要了解replaceAll的“正则expression式”部分 1）什么是“合并病态标记”？ 2）文件在哪里？（和类似的？）谢谢。

C编程：如何编程为Unicode？: 严格的Unicode编程需要什么先决条件？这是否意味着我的代码不应该在任何地方使用chartypes，并且需要使用可以处理wint_t和wchar_t函数？在这种情况下多字节字符序列所起的作用是什么？

WebClient.DownloadString由于编码问题而导致字符错乱，但浏览器正常: 以下代码： var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); 会产生一个variablestext ，其中包含string “$κ$ –Minkowski空间，标量场和洛伦兹不变性的问题” 但是，当我在Firefox中访问该URL时，我可以得到 $κ$ -Minkowski空间，标量场和洛伦兹不变性的问题这实际上是正确的。我也试过了 var data = (new WebClient()).DownloadData("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20"); var text = System.Text.UTF8Encoding.Default.GetString(data); 但这给了同样的问题。我不确定这里的错在哪里。 Feed是否是UTF8编码的，浏览器足够聪明，而不是WebClient ？ Feed是否正确地使用了UTF8编码，但WebClient以其他方式失败？我可以做些什么来减轻这一点？

Emacs模式来编辑JSON: 有没有人知道一个好的Emacs模式来编辑JSON？我正在使用的应用程序使用基于JSON的通信协议，使数据很好地缩进和语法突出显示将帮助我解决这个问题。

UTF-8“可变宽度编码”如何工作？: unicode标准有足够的代码点，你需要4个字节来存储它们。这就是UTF-32编码所做的。然而，UTF-8编码以某种方式通过使用称为“可变宽度编码”的东西将它们挤压到更小的空间中。实际上，它只是用一个字节表示US-ASCII的前127个字符，看起来就像真正的ASCII，所以你可以把许多ASCII文本解释为UTF-8，而不用做任何事情。整洁的把戏。那么它是怎样工作的？我要在这里问一问，回答我自己的问题，因为我只是做了一些解读，我认为这可能会让别人省下一些时间。另外也许有人可以纠正我，如果我有一些错误。

在HTML中显示unicode符号: 我想简单地在HTML页面中显示tick（✔）和cross（✘）符号，但是它显示为一个盒子或者goopœ – 显然是与编码有关的。我已经设置meta标签来显示utf-8，但显然我错过了一些东西。 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 编辑/解决scheme：从发表的意见，使用FireBug我发现我的网页传递的头实际上是“内容types：文本/ HTML”，而不是UTF-8。使用Notepad ++查看文件格式显示我的文件被格式化为“没有BOM的UTF-8”。改变这只是UTF-8符号现在显示正确…但萤火虫似乎仍然表明相同的内容types。

如何在XAML中放置一个Unicode字符？: 我正在尝试这样做： <TextBlock Text="{Binding Path=Text, Converter={StaticResource stringFormatConverter}, ConverterParameter='&\u2014{0}'}" /> 得到 – 出现在文本前面。它不起作用。我应该在这里做什么？