写点什么

Lucene 2.9:数字字段支持、新分析器及性能优化

  • 2009-09-27
  • 本文字数:583 字

    阅读完需:约 2 分钟

Apache Lucene 项目是一个完全用 Java 编写的高性能、全功能的文本搜索引擎库,最近它发布了 2.9 版。此次发布在 2.4.1 版的基础上进行了许多增强:

  • 单个 Segment 的查询及缓存,这使 reopen 操作的速度显著提高。
  • 为 IndexWriter 增加了接近实时的搜索功能。
  • 新的 Query 类型。
  • 更智能,伸缩性更强的多词(multi-term)查询(如 Wildcard,Range 等等)。
  • 最新优化过的 Collector/Scorer API。
  • 新增的 Unicode 支持及字符集(Collation)。
  • 基于 Attribute 的 TokenStream 新 API。
  • 在 contrib 中提供了新的 QueryParser 框架,并替换了核心实现。
  • 在基于字段搜索,或使用自定义的 Collector 的时候可取消 Score 功能,这样可以获得显著的性能提高。
  • 新的分析器(PesianAnalyzer,ArabicAnalyzer 即 SmartChineseAnalyzer)。
  • 为大型文本新增快速向量高亮工具(fast-vector-highlighter)。
  • 对数字字段提供了高性能的查询支持。这些字段使用前缀树的结构进行索引,能直接支持简单而高效的数字范围查询,而不需要在外部对数字进行处理。

虽然 Lucene 团队打算在小版本的更新上做到完整的兼容,但是 Lucene 2.9 在不少方面破坏了这一点,详细信息可参考 Changes 文档中“向前兼容策略的改变(Changes in backwards compatibilit policy)”一节。Lucene 团队建议不要直接替换生产环境下的二进制包,而是在部署前重新编译应用程序,以便在出现兼容问题时获得提示并进行修补。

2009-09-27 04:252677
用户头像

发布了 157 篇内容, 共 54.3 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

BIGO技术:实时计算平台建设

InfoQ_3597a20b53cc

互联网 BIGO

数据库外键

will

数据库 性能 外键

一次好的聊天可以超过自己努力啃几周的书籍

良知犹存

程序人生

“云”上教与学,让教育不止步于课堂

Geek_116789

内存总是不够?HBase&GeoMesa配置优化了解一下

华为云开发者联盟

内存模型 内存 HBase 大集群 GeoMesa

构造、析构期间被调虚函数发生的惨案,长教训!

华为云开发者联盟

代码 组合模式 封装、继承、多态 bug 回调函数

移卡荣登2020「AI 最佳成长榜」,AI+金融科技赋能商业服务

DT极客

计算机网络基础(十六)---传输层-可靠传输的基本原理

书旅

计算机网络 网络 协议族 网络层

一款基于 Python 语言的 Linux 资源监视器!

JackTian

Python GitHub Linux bashtop bpytop

入职两周,怀疑自己进了假百度!跟传说中完全不一样!难道真有两家百度公司?

程序员生活志

百度 程序员

程序员陪娃系列——育儿路上二三事续

孙苏勇

程序员 陪伴 随笔杂谈

太赞了!程序员应该访问的最佳网站都在这里了!

JackTian

GitHub 学习 编程 程序员 网站平台

程序员陪娃系列——和孩子聊生死

孙苏勇

程序员 陪伴 随笔杂谈

低代码平台会让程序员失业?测评了5个工具,谁能让效率提高N倍?

代码制造者

编程 编程语言 低代码 零代码 测评

【API进阶之路】帮公司省下20万调研费!如何巧用情感分析API实现用户偏好调研

华为云开发者联盟

反馈 API 华为云 API Explorer平台 用户调研

云图说 | 3分钟创建一个游戏类工作负载

华为云开发者联盟

Docker 容器 华为云 工作负载 2048游戏

程序员陪娃系列——小娃的到来

孙苏勇

程序员 陪伴 随笔杂谈

使用 supervisor 配置 ngrok 内网穿透为守护进程

jerry.mei

Linux 操作系统 ngrok 守护进程 内网穿透

程序员陪娃系列——见你的第一面

孙苏勇

程序员 陪伴 随笔杂谈

《Java并发编程的艺术》读书笔记1:说说并发编程

Jason

多线程 并发

Android 原生 SQLite 数据库的一次封装实践

vivo互联网技术

sqlite android 数据库

学生党学编程,有这个开源项目就够了!

JackTian

GitHub 学习 编程 程序员 学生党

Linkerd 2.8 - 實現超級簡單又安全的多叢集(multicluster) Kubernetes 架構

Rammus

Kubernetes DevOps 运维 云原生 Service Mesh

程序员陪娃系列——育儿路上二三事

孙苏勇

程序员 陪伴 随笔杂谈

十多位全球技术专家,为你献上近十个小时的.Net微服务介绍

newbe36524

容器 微服务 .net core netcore

边云协同!EM-BOX视频分析盒加速安全生产场景落地AI应用

百度大脑

人工智能 人脸识别 图像识别 百度大脑 人体识别

趣文:那天我被拉入 C++ 亲友群

程序员生活志

c c++ 程序员

程序员陪娃系列——小小免费按摩师

孙苏勇

程序员 陪伴 随笔杂谈

学了那么多技术,为何依然成不了架构师

菜根老谭

架构设计原则

品质网络的迭变之路,以及运营商的未来之匙

脑极体

多角度分析,通讯时序数据的预测与异常检测挑战

华为云开发者联盟

时序数据库 即时通讯 异常检测 网络智能体 时序预测

Lucene 2.9:数字字段支持、新分析器及性能优化_Java_赵劼_InfoQ精选文章