<tfoot draggable='sEl'></tfoot>

Lucene聚类分组统计功能（grouping）

Lucene聚类分组统计功能（grouping）

http://sujitpal.blogspot测试数据/2007/04/lucene-search-within-search-with.html
http://blog.csdn.net/lansine2005/article/details/6787472

Lucene聚类分组统计功能（grouping）
分类： Lucene 2011-09-18 16:56 229人阅读评论 (1) 收藏举报
在搜索的项目中，我们经常有对搜索结果进行分组或对字段进行压缩的需求。之前的文章提到这个功能已经添加到solr中并成为用户一个非常需要的特性。最近结果分组被作为一个扩展包加入到lucene3.1中，而在4.0中将直接作为一个模块。添加这个功能到lucene中使用起来将会更灵活。目前正在努力将结果分组放入到solr的3.X版本分支中。具体参考 SOLR-2524 这意味着在solr3.2中我们将可以使用这个功能了！

历史
这个功能起于4年前，分支 SOLR-236 被创建的时候。那时结果分组关注于在结果集中对拥有相同字段值的文档进行压缩。随着时间的推移，越来越多的人开始使用这个补丁。很多人提交了一些新的特性、调优。而字段的压缩在Jira上作为一个补丁起始于3年前，用户需要对solr打补丁并运行在这个构建的版本上。这种明显是一种错误的方式，以至于在这方面的问题发给了Solr的邮件组。另外，在Jira上有很多关于字段分组的补丁，这让用户很迷惑

去年9月结果分组在4.0-dev版中变的可用。字段压缩功能也被重写 (SOLR-1682) ,并且性能也得到提升。另外，结果分组也被加入，所以这个特性有些小的改变。

最近，正尝试着放入 LUCENE-1421 。这个Jira创建的目的是暴露结果分组的功能给lucene。在Solr主干中，分组的代码将会被重写，并将分组模块放入到lucene中。在3.x版本中，它已经被作为一个扩展包了。目前还不能支持按方法(function)或查询(query)进行分组。 LUCENE-3099 已经被创建，不久lucene就可以使用这些功能了。

Lucene的结果分组
Lucene中的分组很容易使用，参考下面的例子。类 FirstPassGroupingCollector 用来收集每组中有多少个文档； SecondPassGroupingCollector 收集有多少个分组。

view plain
FirstPassGroupingCollector c1 = new FirstPassGroupingCollector( "author" , groupSort, groupOffset + topNGroups); indexSearcher.search( new TermQuery( new Term( "content" , searchTerm)), c1); Collection<SearchGroup> topGroups = c1.getTopGroups(groupOffset, fillFields); if (topGroups == null ) { // No groups matched return ; } boolean getScores = true ; boolean getMaxScores = true ; boolean fillFields = true ; SecondPassGroupingCollector c2 = new SecondPassGroupingCollector( "author" , topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields); indexSearcher.search( new TermQuery( new Term( "content" , searchTerm)), c2); TopGroups groupsResult = c2.getTopGroups(docOffset);

如果search的性能耗费大，则可以考虑使用 CachingCollector 。这个cache可以缓存第一次search时的文档Id和评分，并提供给之后的查询使用。使用方法请参考 grouping documentation 。

有另一个收集器叫 AllGroupsCollector ，它可以收集查询结果的所有组。下面的例子为得到各个分组收集的总数量：
view plain
// First pass search has been executed boolean getScores = true ; boolean getMaxScores = true ; boolean fillFields = true ; AllGroupsCollector c3 = new AllGroupsCollector( "author" ); SecondPassGroupingCollector c2 = new SecondPassGroupingCollector( "author" , topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields); indexSearcher.search( new TermQuery( new Term( "content" , searchTerm)), MultiCollector.wrap(c2, c3)); TopGroups groupsResult = c2.getTopGroups(docOffset); groupsResult = new TopGroups(groupsResult, c3.getGroupCount());

通过 MultiCollector ， AllGroupsCollector 能很好的封装 SecondPassGroupingCollector 。 AllGroupsCollector 也能独立的在其他的收集器中使用。

结果分组在solr中的使用
现在Solr主干上还没有使用lucene 分组模块；它使用它自己的分组模块。Solr还没有使用lucene的分组模块的原因，是它还没有对function和query的支持。然而Solr3.1还没有实现分组的支持，用户仍需要自己下分支然后编译。更坏的是，很多用户还在使用过时的补丁SOLR-236，这是我为什么创建 SOLR-2524 的原因.

SOLR-2524 分支涉及到集成lucene的扩展包到solr3.x分支中。这个版本也为集成分组模块的主干版本到Solr4.0中作为参考。Solr3.x的主干分组将支持相同的响应格式和请求参数，具体描述请参见 Solr FieldCollapse wiki page ；它还不支持的功能还是function和query。

如果运行良好，这个分支将会提交到Solr3.2版本中，Solr的用户就可以直接使用啦

查看更多关于Lucene聚类分组统计功能（grouping）的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did41747

更新时间：2022-09-24 阅读：57次

上一篇： lucene3.5 example

下一篇：bobobrowse为Lucene添加分组统计