飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

Lucene 2.9:数字字段支持、新分析器及性能优化

  • 2009-09-27
  • 本文字数:583 字

    阅读完需:约 2 分钟

Apache Lucene 项目是一个完全用 Java 编写的高性能、全功能的文本搜索引擎库,最近它发布了 2.9 版。此次发布在 2.4.1 版的基础上进行了许多增强:

  • 单个 Segment 的查询及缓存,这使 reopen 操作的速度显著提高。
  • 为 IndexWriter 增加了接近实时的搜索功能。
  • 新的 Query 类型。
  • 更智能,伸缩性更强的多词(multi-term)查询(如 Wildcard,Range 等等)。
  • 最新优化过的 Collector/Scorer API。
  • 新增的 Unicode 支持及字符集(Collation)。
  • 基于 Attribute 的 TokenStream 新 API。
  • 在 contrib 中提供了新的 QueryParser 框架,并替换了核心实现。
  • 在基于字段搜索,或使用自定义的 Collector 的时候可取消 Score 功能,这样可以获得显著的性能提高。
  • 新的分析器(PesianAnalyzer,ArabicAnalyzer 即 SmartChineseAnalyzer)。
  • 为大型文本新增快速向量高亮工具(fast-vector-highlighter)。
  • 对数字字段提供了高性能的查询支持。这些字段使用前缀树的结构进行索引,能直接支持简单而高效的数字范围查询,而不需要在外部对数字进行处理。

虽然 Lucene 团队打算在小版本的更新上做到完整的兼容,但是 Lucene 2.9 在不少方面破坏了这一点,详细信息可参考 Changes 文档中“向前兼容策略的改变(Changes in backwards compatibilit policy)”一节。Lucene 团队建议不要直接替换生产环境下的二进制包,而是在部署前重新编译应用程序,以便在出现兼容问题时获得提示并进行修补。

2009-09-27 04:252810
用户头像

发布了 157 篇内容, 共 56.9 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

无代码落地进企业,轻流不断扩大交友圈

ToB行业头条

GitLab 入选 Forrester Wave™️ 集成软件交付平台,并获评唯一「领导者」!

极狐GitLab

领导力 gitlab Forrester Wave 领导者 创新能力

【7.7-7.14】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

继长白山历史文化园三园一区后,鼎益丰再造龙狮谷新项目

Geek_2d6073

大咖直播专场 | 数据库集群方案简介

KaiwuDB

KaiwuDB 数据库集群方案介绍

RisingWave 1.0 版本正式发布!

吴英骏

数据库 rust 云原生 数据架构 流处理

错过直播?快收藏详实回顾!Get「研发效能管理」7 步实践指南与案例剖析

极狐GitLab

gitlab DevSecOps 效能管理 GDAI 蔚来案例

AntDB数据库亮相2023操作系统产业大会,携手合作伙伴共建网信生态

亚信AntDB数据库

数据库 AntDB AntDB数据库 企业号 7 月 PK 榜

与 AI 同行,利用 ChatGLM 构建知识图谱

NebulaGraph

人工智能 知识图谱 LLM

智能合约编写高级篇(一)获取区块时间

BSN研习社

学到就是赚到!NodeJS 实战系列:个人开发者应该如何选购云服务

不在线第一只蜗牛

node.js 实战开发

当AGI遇上能源寡头,会碰撞出什么样的火花?

TE智库

特斯联

KaiwuDB CTO 魏可伟:多模架构 —“化繁为简”加速器

KaiwuDB

数据库 AIOT KaiwuDB 多模架构

DevOps in China:15年来,DevOps在中国经历了什么?

DevOps和数字孪生

嵌入式DevOps

新增华为高阶智驾+大五座版本!全新问界M7工信部曝光

Geek_2d6073

1W+规则,20W+字段,某城商行数据分类分级有多卷?

极盾科技

数据安全 数据分类分级

同城双中心 DR Auto-Sync 主中心意外故障恢复

TiDB 社区干货传送门

数据库架构设计 7.x 实践

IT安全运维管理系统哪个好?适合中小企业的哪款好?

行云管家

云计算 IT运维 云管理 安全运维

初窥低代码 | 社区征文

神木鼎

低代码 年中技术盘点

AIGC:新AI时代,推动数字人进化的引擎

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

高效运营新纪元:智能化华为云Astro低代码重塑组装式交付

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

软件测试/测试开发丨Selenium 安装教程

测试人

Python 程序员 软件测试 selenium

【分久必合】构建下一代前端组件 | 社区征文

小鑫同学

年中技术盘点

官宣!菁英实习生计划启动,百度大模型团队诚邀你的加入

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

极限抵御DDoS攻击!高防主机守护您的网站安全!

一只扑棱蛾子

高防主机

IoT 场景下 TDengine 与老牌时序数据库怎么选?看看这份TSBS报告

爱倒腾的程序员

数据库·

Lucene 2.9:数字字段支持、新分析器及性能优化_Java_赵劼_InfoQ精选文章