Tag: unicode

从Python中的文件读取字符

在一个文本文件中,有一个string“我不喜欢这个”。 但是,当我将它读入一个string时,它变成了“我不喜欢这样”。 我明白,“是”的Unicode代表。 我用 f1 = open (file1, "r") text = f1.read() 命令做阅读。 现在,读取string是不是可以这样读取string:“我不喜欢这个”,而不是像这样的“我不喜欢这个”? 二,编辑:我看过一些人用映射来解决这个问题,但是真的,有没有内置的转换来做这种ANSI到unicode(反之亦然)的转换呢?

不一致的Unicode表情符号字形/符号

我一直试图在苹果和iOS的产品中使用Unicode符号进行占星术。 我得到不一致的结果,如下所示: 其中大部分都是我喜欢的,但由于某种原因,金牛座的符号在月亮之后出现在第一行上,并且与火星相似,表情符号与紫色button非常不同。 这些结果对于不同的符号和Apple硬件是一致的; 这里是我的手机屏幕截图显示与其他迹象相同的问题 – 天蝎座出来没事,但天秤座和巨蟹座是button。 string非常简单; “月亮金牛座”中的第一个图像是“月亮”,对于金牛座,基本上组装为[NSString stringWithFormat:@"%@%@", @"\u263D", @"\u2649"] 。 “火星金牛座”的形象是一样的,只有火星\u2642 。 string格式在OSX表的不同单元格和iOS的AttributedString中是相同的。 任何想法是什么使这些符号有时以一种方式出现,而另一种方式呢?

在标签中填充Unicode字符

如何在Swing中“填充”标签中的Unicode字符? 我试图为最近编程的国际象棋程序制作一个用户界面(用上面看到的象棋棋子)。 在这里我使用Unicode字符来表示我的棋子( \u2654到\u265F )。 问题如下: 当我将我的棋子JLabel的背景设置为白色时,整个标签都被填充了(在我的情况下,它是一个50 * 50px的白色正方形,正方形)。 这导致我的作品看起来像瓷砖而不是他们的照片。 当我把标签设置为不透明的时候,我只是得到我的棋子的cookies版本,而不是其内部填充的一个。 例如 有没有办法只填写字符? 如果没有,我想我会做一个精灵表,但我喜欢这个,因为我可以使用棋子的toString()方法的标签。 码 import java.awt.*; import javax.swing.*; import java.util.Random; class ChessBoard { static Font font = new Font("Sans-Serif", Font.PLAIN, 50); static Random rnd = new Random(); public static void addUnicodeCharToContainer( String s, Container c, boolean randomColor) { JLabel l = new JLabel(s); l.setFont(font); […]

我怎样才能得到一个字符的Unicode代码点?

我怎样才能提取一个给定的Character的Unicode代码点(S)没有先把它转换为一个String ? 我知道我可以使用以下内容: let ch: Character = "A" let s = String(ch).unicodeScalars s[s.startIndex].value // returns 65 但似乎应该有一个更直接的方式来完成这个使用Swift的标准库。 “语言指南”部分中的“使用字符”和“Unicode”仅讨论迭代String中的String ,而不直接与Character s一起工作。

为什么在XML 1.0中“控制”字符是非法的?

在XML 1.0中有很多不合法的字符,例如U+0007 ('bell')和U+001B ('escape')。 大多数有趣的是非空白的“控制”字符。 从(例如) 这个问题和其他问题可以清楚地看到, XML规范是这个问题 – 但是谁能告诉我为什么 XML规范禁止这些字符? 似乎可能需要将它们编码为转义 ,例如 和 分别,但也许有一个实际的原因,人物被禁止,而不是要求逃脱? 回答者build议,避免传输控制字符有一些动机,但Unicode包含许多其他控制字符(考虑U+200C “零宽度非木工”)。 我承认这种行为可能没有什么好的理由,但我仍然想更好地理解它。 特别令人沮丧的是,当这些字符值出现在其他编码数据格式中时,我最终需要对需要对其进行编码的新XML文档进行“双重转义”。

如何找出Python是用UCS-2还是UCS-4编译?

正如标题所说的那样。 $ ./configure –help | grep -i ucs –enable-unicode[=ucs[24]] search官方文档,我发现这个: sys.maxunicode :为Unicode字符提供最大支持代码点的整数。 它的值取决于configuration选项,该选项指定是否将Unicode字符存储为UCS-2或UCS-4。 这里不清楚的是 – 哪个值对应于UCS-2和UCS-4。 预计代码将在Python 2.6+上运行。

如何从PDF文档中提取文本?

如何使用PHP从PDF文档中提取文本? (我不能使用其他工具,我没有root权限) 我发现了一些纯文本function,但是它们不能很好地处理Unicode字符: http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

urllib2读取到Unicode

我需要存储可以使用任何语言的网站的内容。 我需要能够search内容的Unicodestring。 我曾尝试过这样的事情: import urllib2 req = urllib2.urlopen('http://lenta.ru') content = req.read() 内容是一个字节stream,所以我可以search它的Unicodestring。 我需要一些方法,当我urlopen ,然后阅读使用从标题的字符集解码的内容,并将其编码为UTF-8。

如何检查Python中的string是否是ASCII码?

我想检查一个string是否是ASCII码。 我知道ord() ,但是当我尝试ord('é') ,我有TypeError: ord() expected a character, but string of length 2 found 。 我明白这是由我build立Python的方式(正如ord()的文档中所解释的 )引起的。 有另一种方法检查?

UnicodeDecodeErrorredirect到文件时

我在Ubuntuterminal(编码设置为utf-8)中运行这个代码片断两次,一次使用./test.py ,然后使用./test.py >out.txt : uni = u"\u001A\u0BC3\u1451\U0001D10C" print uni 没有redirect,它打印垃圾。 redirect,我得到一个UnicodeDecodeError。 有人可以解释为什么我只在第二种情况下才会出现错误,或者甚至可以更好地详细解释两种情况下的幕后情况?