Light C Unicode库

我正在寻找一个小C库来处理utf8string。

具体来说,基于统一码分隔符进行分词以用于词干分析algorithm。

相关post提示:

ICU http://www.icu-project.org/ (我发现它太笨重,因为我在embedded式设备上的目的)

UTF8-CPP: http : //utfcpp.sourceforge.net/ (优秀,但C ++不C)

有没有人发现任何平台独立,小代码库处理Unicodestring(不需要做归化)。

任何意见将不胜感激。

我使用的一个很好的,轻量级的库是utf8proc 。

还有MicroUTF-8 。

UTF-8是专门devise的,因此许多字节导向的string函数可以继续工作,或者只需要很小的修改。

例如,C的strstr函数只要input有效,以空字符结尾的UTF-8string就可以正常工作。 只要它的inputstring从字符边界开始(例如strstr的返回值), strcpy可以正常工作。

所以你可能甚至不需要一个单独的库!