Tag: lucene

Lucene.Net最佳实践

什么是使用Lucene.Net的最佳做法? 或者我在哪里可以find一个很好的lucene.net使用示例?

Lucene分数结果

在Lucene中,如果你有多个索引每个只覆盖一个分区。 为什么不同索引上的相同search返回不同分数的结果? 来自不同服务器的结果完全匹配。 即如果我search: 名字 – 约翰·史密斯 出生date – 11/11/1934 分区0将返回0.345的分数 分区1将返回0.337的分数 两者都完全匹配名称和DOB。

Solr是否可用于.Net?

我想学习Solr。 我可以知道一些很好的教程/链接吗? 另外,Solr是否可用于.NET?

如何在QueryParser中包含多个字段?

Dim qp1 As New QueryParser("filename", New StandardAnalyzer()) Dim qp2 As New QueryParser("filetext", New StandardAnalyzer()) . . 我正在使用“Lucene.Net”库,并有以下问题。 而不是创build两个单独的QueryParser对象,并使用它们来获取两个Hits对象,是否可以使用单个QueryParser对象在两个字段上执行search,以便我只有一个Hits对象,它可以给我每个Document的总体分数?

如何使用Lucene分析器标记string?

有没有一种简单的方法可以使用Lucene的Analyzer任何子类来parsing/标记一个String ? 就像是: String to_be_parsed = "car window seven"; Analyzer analyzer = new StandardAnalyzer(…); List<String> tokenized_string = analyzer.analyze(to_be_parsed);

数千个文档的可search存档的最佳实践(pdf和/或xml)

重新审视一个停滞不前的项目,寻求将现有数千个“旧”文档进行现代化build议,并通过networking提供这些文档的build议。 文档以各种格式存在,有些已经过时:(. doc , PageMaker ,硬拷贝(OCR), PDF等)。 资金可用于将文档迁移到“现代”格式,许多硬拷贝已经被OCR化为PDF格式 – 我们原本以为PDF是最终的格式,但我们愿意接受build议(XML?) 。 一旦所有文档都采用通用格式,我们希望通过网页界面提供其内容并进行search 。 我们希望灵活性只返回发现search“hit”的整个文档的部分(页面?)(我相信Lucene / elasticsearch使这成为可能?!?)如果内容是全部XML,它可能会更加灵活吗? 如果是的话,如何/在哪里存储的XML? 直接在数据库中,或作为文件系统中的离散文件? 那么在文档中embedded的图像/图表呢? 好奇别人怎么会这样做。 没有“错误的”答案我只是寻找尽可能多的投入来帮助我们继续。 感谢您的任何build议。

使用ElasticSearch的负载均衡器是不必要的?

我有一个在AWS EC2上运行的3个ElasticSearch节点集群。 这些节点使用OpsWorks / Chef进行设置。 我的目的是devise这个集群是非常有弹性和弹性的(节点可以在需要时进出)。 从我读过的有关ElasticSearch的一切,似乎没有人推荐将负载均衡器放在集群前面; 相反,似乎build议做两件事之一: 将您的客户端指向一个节点的URL / IP,让ES为您做负载平衡,并希望节点永不停机。 将所有节点的URL / IP硬编码到客户端应用程序中,让应用程序处理故障切换逻辑。 我的背景主要是在Web农场,创build一个巨大的自治Web服务器池,在它们前面放置一个ELB,并让负载平衡器决定哪些节点是活着或死亡是常识。 为什么ES似乎不支持这个相同的架构?

检索Solr查询中的特定字段?

我在Jetty上运行Solr实例,当我使用Solrpipe理面板进行search时,它将返回整个文档。 我应该怎样才能从search中返回的每个Solr文档中只获取指定的字段?

percolator在弹性search中意味着什么?

尽pipe我读了Elasticsearch的文档来了解一个filter是什么。 我仍然很难理解它的含义,以及它的用途。 任何人都可以提供给我更多的细节?

SQL Server 2008全文search(FTS)与Lucene.NET

我知道过去有一些关于SQL 2005和Lucene.NET的问题,但是自从2008年出来以后,他们做了很多的改变,想知道是否有人可以给我优点/缺点(或者链接到一篇文章)。