Tag: lucene

Lucene分数结果: 在Lucene中，如果你有多个索引每个只覆盖一个分区。为什么不同索引上的相同search返回不同分数的结果？来自不同服务器的结果完全匹配。即如果我search：名字 – 约翰·史密斯出生date – 11/11/1934 分区0将返回0.345的分数分区1将返回0.337的分数两者都完全匹配名称和DOB。

如何在QueryParser中包含多个字段？: Dim qp1 As New QueryParser("filename", New StandardAnalyzer()) Dim qp2 As New QueryParser("filetext", New StandardAnalyzer()) . . 我正在使用“Lucene.Net”库，并有以下问题。而不是创build两个单独的QueryParser对象，并使用它们来获取两个Hits对象，是否可以使用单个QueryParser对象在两个字段上执行search，以便我只有一个Hits对象，它可以给我每个Document的总体分数？

如何使用Lucene分析器标记string？: 有没有一种简单的方法可以使用Lucene的Analyzer任何子类来parsing/标记一个String ？就像是： String to_be_parsed = "car window seven"; Analyzer analyzer = new StandardAnalyzer(…); List<String> tokenized_string = analyzer.analyze(to_be_parsed);

数千个文档的可search存档的最佳实践（pdf和/或xml）: 重新审视一个停滞不前的项目，寻求将现有数千个“旧”文档进行现代化build议，并通过networking提供这些文档的build议。文档以各种格式存在，有些已经过时：（. doc ， PageMaker ，硬拷贝（OCR）， PDF等）。资金可用于将文档迁移到“现代”格式，许多硬拷贝已经被OCR化为PDF格式 – 我们原本以为PDF是最终的格式，但我们愿意接受build议（XML？）。一旦所有文档都采用通用格式，我们希望通过网页界面提供其内容并进行search 。我们希望灵活性只返回发现search“hit”的整个文档的部分（页面？）（我相信Lucene / elasticsearch使这成为可能？！？）如果内容是全部XML，它可能会更加灵活吗？如果是的话，如何/在哪里存储的XML？直接在数据库中，或作为文件系统中的离散文件？那么在文档中embedded的图像/图表呢？好奇别人怎么会这样做。没有“错误的”答案我只是寻找尽可能多的投入来帮助我们继续。感谢您的任何build议。

使用ElasticSearch的负载均衡器是不必要的？: 我有一个在AWS EC2上运行的3个ElasticSearch节点集群。这些节点使用OpsWorks / Chef进行设置。我的目的是devise这个集群是非常有弹性和弹性的（节点可以在需要时进出）。从我读过的有关ElasticSearch的一切，似乎没有人推荐将负载均衡器放在集群前面; 相反，似乎build议做两件事之一：将您的客户端指向一个节点的URL / IP，让ES为您做负载平衡，并希望节点永不停机。将所有节点的URL / IP硬编码到客户端应用程序中，让应用程序处理故障切换逻辑。我的背景主要是在Web农场，创build一个巨大的自治Web服务器池，在它们前面放置一个ELB，并让负载平衡器决定哪些节点是活着或死亡是常识。为什么ES似乎不支持这个相同的架构？