Tag: lemmatization

wordnet lemmatization和pos标签在python中

我想在python中使用wordnet lemmatizer,并且我已经了解到默认的pos标签是NOUN,并且它不会为动词输出正确的引理,除非pos标签显式指定为VERB。 我的问题是为了准确地进行上述的词性化,最好的办法是什么? 我使用nltk.pos_tag进行了pos标记,而且我正在将树库pos标记集成到wordnet兼容的pos标记中。 请帮忙 from nltk.stem.wordnet import WordNetLemmatizer lmtzr = WordNetLemmatizer() tagged = nltk.pos_tag(tokens) 我得到NN,JJ,VB,RB中的输出标签。 如何将这些更改为与wordnet兼容的标签? 还有,我必须训练nltk.pos_tag()带标签的语料库,或者我可以直接在我的数据上使用它来评估?

Stemmers vs Lemmatizers

自然语言处理(NLP),特别是英语的自然语言处理已经发展到如果存在“完美”的问题,词干将成为一个古老的技术的阶段。 这是因为词干改变词汇/标记的表面forms变成一些毫无意义的词干。 然后,“完美”的lemmatizer的定义是有问题的,因为不同的NLP任务将需要不同程度的lemmatization。 例如在动词/名词/形容词forms之间转换单词 。 词干 [in]: having [out]: hav Lemmatizers [in]: having [out]: have 所以现在的问题是,英文词干今天有用吗? 因为我们有大量的英语推理工具 如果不是,那么我们应该如何build立强大的可以接受nounify , verbify , adjectify和adverbify预处理的adverbify ? 如何将词形化任务轻松地缩放到与英语具有相似形态结构的其他语言?