Tag: unicode

Twitter图像编码挑战

如果一张图片的价值是1000字,那么你可以在140个字符中填入多less图片? 注意 :这是人! 赏金截止date在这里,经过一番艰难的考虑后,我决定Boojum的入场只是Sam Hocevar的 。 一旦我有机会写出更详细的笔记,我会发布。 当然,每个人都可以随时继续提交解决scheme,改善人们投票的解决scheme。 感谢提交和录入的每一个人; 我喜欢所有这些。 这对我来说运行起来非常有趣,我希望对于参赛者和观众来说都是有趣的。 我偶然发现了一个有趣的post ,试图将图片压缩成一个Twitter评论,该post中的很多人(以及Reddit上的一个post )都提出了不同的方法。 所以,我认为这将是一个很好的编码挑战; 让人们把他们的钱放在他们的口中,并展示他们的编码思想如何在有限的空间里得到更多的细节。 我挑战你想出一个通用的系统,将图像编码成140个字符的Twitter消息,并将它们再次解码成一个图像。 你可以使用Unicode字符,所以你每个字符超过8位。 但是,即使允许使用Unicode字符,也需要将图像压缩到非常小的空间内。 这肯定是一个有损压缩,所以必须有主观判断每个结果有多好。 以下是原作者Quasimondo从他的编码中得到的结果(图像是根据知识共享署名 – 非商业性许可授权的 ): 你能做得更好吗? 规则 你的程序必须有两种模式: 编码和解码 。 编码时 : 您的程序必须以您select的任何合理的光栅graphics格式inputgraphics。 我们会说ImageMagick支持的任何格式都是合理的。 您的程序必须输出一个可以用140个或更less的Unicode代码点表示的消息; 除了非字符( U+FFFE , U+FFFF , U+ n FFFE , U+ n FFFF ,其中n是10hex数)和范围U+FDD0 – U+FDEF之外的140个代码点在U+0000 – U+10FFFF U+FDEF )和替代码点( U+D800 – […]

python3打印unicode到windows xp控制台编码cp437

好的,我想打印一个string在我的Windows XP控制台。 控制台不能打印几个字符,所以我必须编码到我的stdout.encoding这是'cp437'。 但打印编码的string,“ß”打印为“\ xe1”。 解码回unicode并打印string后,我得到我想要的输出。 但是这感觉有些不妥。 如何正确的方式来打印一个string,并得到? 对于不可打印的字符? >>>var 'Bla \u2013 großes' >>>print(var) UnicodeEncodeError: 'charmap' codec can't encode character '\u2013' >>>var.encode('cp437', 'replace') b'Bla ? gro\xe1es' >>>print(var.encode('cp437', 'replace')) b'Bla ? gro\xe1es' >>>var.encode('cp437', 'replace').decode('cp437') 'Bla ? großes' >>>print(var.encode('cp437', 'replace').decode('cp437')) Bla ? großes 编辑:@Mark Ransom:因为我打印了很多,这使得代码非常臃肿,我觉得:/ @eryksun:excactly我在找什么。 非常感谢!

匹配任何非单词字符(不包括变音符号)

假设你有以下文字: Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam Lorem! nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor […]

如何通过字符比较来执行一个Unicode意识的字符?

我的应用程序有一个国际性的目标,许多国家的人都会使用它,他们会用自己的语言input文本(我必须处理的文本)。 例如,如果我不得不使用一个字符来比较两个string的差异,那么这个简单的C#代码就足够了,或者我失去了一些东西? var differences = new List<Tuple<int, char, char>>(); for (int i=0; i < myString1.Length; ++i) { if (myString1[i] != myString2[i]) differences.Add(new Tuple<int, char, char>(i, myString1[i], myString2[i])); } 被赋予有效的代码以不同的语言执行这个任务(我的用户不限于US字符集)?

如何将西里尔字符与正则expression式匹配

如何使用正则expression式匹配法语和俄语西里尔字母字符? 我只想做字母字符,没有数字或特殊字符。 现在我有 [A-ZA-Z]

任何方式来返回PHP的`json_encode`编码UTF-8,而不是Unicode?

任何方式来返回PHP的json_encode编码UTF-8,而不是Unicode? $arr=array('a'=>'á'); echo json_encode($arr); mb_internal_encoding('UTF-8'); 和$arr=array_map('utf8_encode',$arr); 不解决它。 结果: {"a":"\u00e1"} 预期成果: {"a":"á"}

Python和BeautifulSoup编码问题

我正在使用BeautifulSoup用Python编写一个爬虫程序,并且一切都很顺利,直到我跑进这个网站: http://www.elnorte.ec/ 我正在获取请求库的内容: r = requests.get('http://www.elnorte.ec/') content = r.content 如果我在这一点做了一个内容variables的打印,所有的西class牙特殊字符似乎工作正常。 但是,一旦我尝试将内容variables提供给BeautifulSoup,它就会变得混乱: soup = BeautifulSoup(content) print(soup) … <a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&amp;month=08&amp;day=27&amp;modid=203" title="1009 artÃculos en este dÃa"> … 这显然是在捣毁所有西class牙特色字符(口音和什么)。 我试过做content.decode('utf-8'),content.decode('latin-1'),也试着把fromEncoding参数搞乱到BeautifulSoup,把它设置成fromEncoding ='utf-8'和fromEncoding ='拉丁-1',但仍然没有骰子。 任何指针将不胜感激。

在Swift中使用Unicode代码点

如果您对蒙古语的细节不感兴趣,但只想快速回答在Swift中使用和转换Unicode值,则跳至接受答案的第一部分。 背景 我想为iOS应用程序使用传统蒙古文的Unicode文本。 更好的和长期的解决scheme是使用AAT智能字体来渲染这个复杂的脚本。 ( 这样的字体确实存在,但是他们的许可证不允许修改和非个人使用)。但是,由于我从来没有制作字体,更不用说所有的AAT字体的渲染逻辑,我只是​​打算自己做渲染斯威夫特现在。 也许在稍后的日子,我可以学会做一个聪明的字体。 外部我将使用Unicode文本,但在内部(用于在UITextView显示)我将Unicode转换为以哑巴字体(使用Unicode PUA值编码)存储的单个字形。 因此,我的渲染引擎需要将蒙古Unicode值(范围:U + 1820到U + 1842)转换为存储在PUA中的字形值(范围:U + E360到U + E5CF)。 无论如何,这是我的计划,因为这是我过去在Java中所做的 ,但也许我需要改变我的整个思维方式。 例 下面的图片显示su在蒙古语中用两种不同的forms写在字母u (红色)上。 (蒙古语是垂直书写的,英文中的草书字母连在一起。 在Unicode中,这两个string将被表示为 var suForm1: String = "\u{1830}\u{1826}" var suForm2: String = "\u{1830}\u{1826}\u{180B}" suForm2的自由variablesselect器(U + 180B)被Swift String识别(正确)为与之前的u (U + 1826)相同的单位。 斯威夫特认为它是一个单一的字符,一个扩展的字形组合。 但是,为了自己进行渲染,我需要将u (U + 1826)和FVS1(U + 180B)区分为两个不同的UTF-16编码点。 为了内部显示的目的,我会把上面的Unicodestring转换成下面的渲染字形string: suForm1 = "\u{E46F}\u{E3BA}" suForm2 = […]

Java正则expression式支持Unicode吗?

为了匹配A到Z,我们将使用正则expression式: [A-ZA-Z] 如何让正则expression式匹配用户input的utf8字符? 比如环保部等中文词汇

MySQL VARCHAR长度和UTF-8

在MySQL中,如果我在UTF-8表中创build一个新的VARCHAR(32)字段,这是否意味着我可以在该字段中存储32个字节的数据或32个字符(多字节)?