Tag: unicode

我怎样才能从Perl输出UTF-8?

我正在尝试使用“utf8”编译指示来编写Perl脚本,并且得到了意想不到的结果。 我正在使用Mac OS X 10.5(Leopard),并使用TextMate进行编辑。 我的编辑器和操作系统的所有设置默认为以utf-8格式编写文件。 但是,当我将下面的内容input到一个文本文件中时,将它保存为“.pl”并执行它,我得到友善的“有问号的钻石”代替非ASCII字符。 #!/usr/bin/env perl -w use strict; use utf8; my $str = 'Çirçös'; print( "$str\n" ); 任何想法我做错了什么? 我希望在输出中得到“Çirçös”,但是我得到“ ir s”。

什么是HTML字符码8203?

什么是字符代码(HTML) ​ ? 我在我的一个jQuery脚本中发现它,并想知道它是什么.. 谢谢。 编辑: 这是它的脚本(它被添加到最后,发现它在Firebug中) <script src="../../../jquery-latest.js" type="text/javascript"></script> <script type="text/javascript"> var $jnyh = jQuery.noConflict(); $jnyh(function() { $jnyh("#title-nyh").click(function() { $jnyh(".show-hide-nyh").slideDown("slow"); }, function() { if(!$jnyh(this).data('pinned')) $jnyh(".show-hide-nyh").slideUp("slow"); }); $jnyh("#title-nyh").click(function() { $jnyh(this).parent().toggleClass("title-btm-brdr"); $jnyh(this).toggleClass("chev-up-result"); var pin = $jnyh(this).data('pinned'); $jnyh(this).data('pinned', !pin); if(pin) $jnyh(".show-hide-nyh").slideUp("slow"); }); });​​ </script>

用Markdown语法表示目录和文件结构

我想在我的一些Jekyll博客文章中描述目录和文件结构,Markdown是否提供了一个输出这样的东西的整洁的方式? 例如,你可以在 Jekyll网站的这个链接上看到目录和文件结构非常整齐地输出在页面上: . ├── _config.yml ├── _drafts | ├── begin-with-the-crazy-ideas.textile | └── on-simplicity-in-technology.markdown ├── _includes | ├── footer.html | └── header.html ├── _layouts | ├── default.html | └── post.html ├── _posts | ├── 2007-10-29-why-every-programmer-should-play-nethack.textile | └── 2009-04-26-barcamp-boston-4-roundup.textile ├── _data | └── members.yml ├── _site └── index.html 我相信上面的行代码字符是Unicode(如这里的答案中所述),但不知道如何Markdown或不同的浏览器将处理它们。 我希望Markdown已经包含了一些这样做的方法,输出上面的Unicode字符。

任何在Python 2.6中使用unicode_literals的问题?

我们已经在Python 2.6下运行了我们的代码库。 为了准备Python 3.0,我们开始添加: 从__future__导入unicode_literals 到我们的.py文件(当我们修改它们时)。 我想知道是否有其他人一直这样做,并遇到任何非明显的陷阱(可能花了很多时间debugging后)。

使用Python读取Pandas中的CSV文件时的UnicodeDecodeError

我正在运行一个正在处理30,000个类似文件的程序。 随机数字正在停止并产生这个错误… File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) File "parser.pyx", line 706, in pandas.parser.TextReader.read (pandas\parser.c:6745) File […]

什么是Java中的“代理对”?

我正在阅读StringBuffer的文档,特别是reverse()方法。 那个文件提到了关于代理对的一些事情。 在这方面什么是代理对? 什么是低和高代理?

如何从string中间执行文化敏感的“开始”操作?

我有一个比较模糊的要求,但是觉得应该可以使用BCL。 对于上下文,我正在parsing日野时间的date/时间string。 我为inputstring中的位置维护一个逻辑光标。 所以虽然完整的string可能是“2013年1月3日”,但逻辑光标可能在“J”处。 现在,我需要parsing月份名称,并将其与文化的所有已知月份名称进行比较: 文化敏感 不区分大小写 只是从光标的angular度来看(不会晚;我想看看光标是否在“看着”候选人的月份名称) 很快 …之后我需要知道使用了多less个字符 当前的代码通常使用CompareInfo.Compare 。 实际上是这样的(只是匹配的部分 – 实际上有更多的代码,但与匹配无关): internal bool MatchCaseInsensitive(string candidate, CompareInfo compareInfo) { return compareInfo.Compare(text, position, candidate.Length, candidate, 0, candidate.Length, CompareOptions.IgnoreCase) == 0; } 然而,这依赖于候选人和我们比较的地区是相同的长度。 大部分时间都好,但在一些特殊情况下不好 。 假设我们有这样的东西: // U+00E9 is a single code point for e-acute var text = "xb\u00e9d y"; int position = 2; […]

“TypeError:必须在散列之前对Unicode对象进行编码”

我有这个错误 Traceback (most recent call last): File "python_md5_cracker.py", line 27, in <module> m.update(line) TypeError: Unicode-objects must be encoded before hashing 当我尝试在Python 3.2.2中执行这个代码时: import hashlib, sys m = hashlib.md5() hash = "" hash_file = input("What is the file name in which the hash resides? ") wordlist = input("What is your wordlist? (Enter the file name) ") […]

如何在Python中将string转换为utf-8

我有一个浏览器发送UTF-8字符到我的Python服务器,但是当我从查询string中检索它时,Python返回的编码是ASCII。 我怎样才能将纯string转换为utf-8? 注:从networking传递的string已经是UTF-8编码,我只是想让Python把它作为UTF-8而不是ASCII。

UTF-8和UTF-16的区别?

UTF-8和UTF-16的区别? 为什么我们需要这些? MessageDigest md = MessageDigest.getInstance("SHA-256"); String text = "This is some text"; md.update(text.getBytes("UTF-8")); // Change this to "UTF-16" if needed byte[] digest = md.digest();