Tag: unicode

没有BOM的UTF-8和UTF-8有什么区别?

没有BOM的 UTF-8和UTF-8有什么区别? 哪个更好?

在颜色的terminal打印?

如何在Python中输出彩色文本到terminal? 什么是代表固体块的最好的Unicode符号?

UnicodeEncodeError:'ascii'编解码器不能编码字符u'\ xa0'在位置20:序号不在范围内(128)

我在处理来自不同网页(不同网站)的文本中的Unicode字符时遇到了问题。 我正在使用BeautifulSoup。 问题是错误不总是可重现的; 它有时可以和一些页面一起工作,有时它通过抛出一个UnicodeEncodeError 。 我已经尝试了所有我能想到的事情,但是我还没有发现任何能够一致工作的东西,而没有抛出某种与Unicode相关的错误。 下面显示了导致问题的代码段之一: agent_telno = agent.find('div', 'agent_contact_number') agent_telno = '' if agent_telno is None else agent_telno.contents[0] p.agent_info = str(agent_contact + ' ' + agent_telno).strip() 当上面的代码片段运行时,这是在一些string上产生的堆栈跟踪: Traceback (most recent call last): File "foobar.py", line 792, in <module> p.agent_info = str(agent_contact + ' ' + agent_telno).strip() UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' […]

Python,Unicode和Windows控制台

当我尝试在Windows控制台中打印Unicodestring时,出现UnicodeEncodeError: 'charmap' codec can't encode character ….错误。 我认为这是因为Windows控制台不接受只有Unicode的字符。 什么是最好的方法呢? 有什么办法可以让Python自动打印? 而不是在这种情况下失败? 编辑:我正在使用Python 2.5。 注意: @ LasseV.Karlsen答案与复选标记是有点过时(从2008年)。 请小心使用下面的解决scheme/答案/build议! 从今天(2016年1月6日)起, @JFSebastian的答案更具相关性。

“u”和“r”string标记究竟做什么,以及什么是原始string文字?

当问这个问题时 ,我意识到我对原始string的了解不多。 对于自称是Django教练的人来说,这很糟糕。 我知道什么是编码,而且我知道自己得到什么是Unicode。 但是, r做了什么? 它会导致什么样的string? 而最重要的是,你到底做了什么? 最后,是否有任何可靠的方法从Unicodestring返回到一个简单的原始string? 嗯,顺便说一下,如果你的系统和你的文本编辑器字符集设置为UTF-8, u真的做了什么?

Windows命令行中的Unicode字符 – 如何?

我们在Team Foundation Server(TFS)中有一个非英文字符(š)的项目。 当试图编写一些与构build相关的东西时,我们偶然发现了一个问题 – 我们不能将š字母传递给命令行工具。 命令提示符或其他什么都不会混淆 , tf.exe实用程序找不到指定的项目。 我已经尝试了.bat文件的不同格式(ANSI,UTF-8带和不带BOM )以及在JavaScript中编写脚本(本身就是Unicode) – 但没有运气。 如何执行程序并将其传递给Unicode命令行?

与UTF-8字符的麻烦; 我看到的不是我所存储的

我试图使用UTF-8并遇到麻烦。 我尝试了很多东西, 这里是我得到的结果: ???? 而不是亚洲人物。 即使是欧洲文本,我也得到Se?or 。 奇怪的胡言乱语( Señor ?),例如Señor 新浪新闻 新浪新闻 。 黑色钻石,如塞尔。 最后,我陷入了数据丢失或者至less被截断的情况: Se for Señor 。 即使我的文字看起来不错,也没有正确sorting 。 我究竟做错了什么? 我如何修复代码 ? 我可以恢复数据吗?如果是这样,怎么办?

如何查看MySQL数据库/表/列是什么字符集?

什么是(默认)字符集: MySQL数据库 MySQL表 MySQL列

在C ++ 11中对字符串文字进行Unicode编码

在相关的问题之后 ,我想问一下C ++ 11中的新字符和字符串文字类型。 现在看来,我们现在有四种字符和五种字符串文字。 字符类型: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t c = u'\u00F6'; // 16-bit, assumed UTF16? char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4 和字符串文字: char A[] = "Hello\x0A"; // byte string, "narrow encoding" wchar_t B[] = L"Hell\xF6\x0A"; // wide […]

C ++中的_tmain()和main()之间有什么区别?

如果我使用下面的main()方法运行我的C ++应用程序,那么一切正常: int main(int argc, char *argv[]) { cout << "There are " << argc << " arguments:" << endl; // Loop through each argument and print its number and value for (int i=0; i<argc; i++) cout << i << " " << argv[i] << endl; return 0; } 我得到了我所期望的,并且我的论据被打印出来了。 但是,如果我使用_tmain: int _tmain(int argc, char […]