是否有一套用于testing字符编码问题的“Lorem ipsums”文件？

对于布局，我们有我们着名的“Lorem ipsum”文本来testing它的样子。

我正在寻找的是一组包含文本的文件，这些文件使用几种不同的编码进行编码，我可以在JUnittesting中使用这些编码来testing某些读取文本文件时处理字符编码的方法。

例：

拥有ISO 8859-1编码的testing文件和Windows-1252编码的testing文件。 Windows-1252必须触发区域80 ₁₆ – 9F ₁₆的区别。换句话说，它必须包含至less一个这个区域的字符，以区别于ISO 8859-1。

也许最好的一组testing文件是每个编码的testing文件包含其所有字符一次。但也许我不知道……我们都喜欢这个编码的东西，对吧？ 🙂

是否有这样一组用于字符编码问题的testing文件？

如何尝试使用ICUtesting套件文件？我不知道他们是否是你需要testing的东西，但是他们似乎至less有UTF映射文件的完整性：链接到ICUtesting文件的回购

维基百科有关变音符号的文章非常全面，不幸的是，您必须手动提取这些字符。也可能存在一些每种语言的助记符。例如在波兰我们使用：

Zażółćgęśląjaźń

其中包含所有9个波兰变音符号在一个正确的句子。另一个有用的search提示是大小写： 使用每个字母至less一次的句子 ：

在西class牙文中，“ El velozmurciélagohindúcomíafeliz cardillo y kiwi。Lacigüeñatocaba elsaxofóndetrásdel palenque de paja。 ”（全部27个字母和变音符号）。

在俄语中，“ Съешьжеещёэтихмягкихфранцузскихбулок，давыпейчаю ”（全部33个俄文西里尔字母）。

Pangrams列表包含一个详尽的总结。任何人都在意这个简单的包装：

 public interface NationalCharacters { String spanish(); String russian(); //... }

图书馆？

我不知道任何完整的文本文件，但是如果您可以从所有字符集的简单概述开始，则可以在ftp.unicode.org服务器上使用一些文件

以WINDOWS-1252为例。第一列是hex字符值，第二列是unicode值。

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

那么，我已经使用在线工具来创build我的文字字符集从Lorem Ipsum。我相信它可以帮助你。我没有一个单一的页面中有所有不同的字符集。

http://generator.lorem-ipsum.info /

是否有一套用于testing字符编码问题的“Lorem ipsums”文件？

你如何正确使用WideCharToMultiByte

PHP DOMDocument loadHTML不能正确编码UTF-8

如何使用JAX-RS设置字符集？

如何在Python中取消一个urlencoded unicodestring？

UTF-8可以编码多less个字符？

将UTF-8string经典ASP转换为SQL数据库

jQuery的AJAX字符编码

Spring MVC中的UTF-8编码，FORMs问题

在C ++源代码中使用Unicode

什么是字符编码，为什么我应该打扰它