Tag: mahout

实体提取/识别与免费工具同时喂Lucene指数

我目前正在研究从文本(网上很多文章)中提取人名,位置,技术词汇和类别的选项,然后将这些文本导入到Lucene / ElasticSearch索引中。 附加信息将作为元数据添加,并应提高search精度。 例如,当有人询问“wicket”时,他应该能够决定他是指板球运动还是Apache项目。 我试图自己实现这一点,迄今取得了微小的成功。 现在我发现了很多工具,但是我不确定它们是否适合这个任务,哪些与Lucene集成,或者实体提取的精度是否足够高。 Dbpedia聚光灯 , 演示看起来非常有前途 OpenNLP需要培训 。 使用哪些训练数据? OpenNLP工具 Stanbol NLTK balie UIMA GATE – > 示例代码 Apache Mahout 斯坦福CRF-NER 毛伊岛,索引 槌 伊利诺伊州命名实体标记不开源,但免费 维基百科数据 我的问题: 有没有人有上述的一些列出的工具和精度/召回经验? 或者如果有需要的培训数据+可用。 是否有文章或教程,我可以开始实体提取(NER)每个工具? 他们如何可以与Lucene集成? 以下是与该主题相关的一些问题: algorithm是否存在帮助检测英语句子的“主要话题”? 用于Java的命名实体识别库 用Java命名实体识别

Apache Mahout和Apache Spark的MLlib有什么区别?

考虑一个具有1000万个产品的MySQL products数据库用于电子商务网站。 我试图build立一个分类模块来分类产品。 我正在使用Apache Sqoop将数据从MySQL导入到Hadoop。 我想用Mahout作为一个机器学习框架来使用它的一个分类algorithm ,然后我碰到了Spark提供的MLlib 那么这两个框架有什么区别呢? 主要有哪些优点,各自的缺点和局限性?