写点什么

Apache Solr:基于 Lucene 的高伸缩性企业搜索服务器

  • 2007-06-19
  • 本文字数:1102 字

    阅读完需:约 4 分钟

基于 Lucene 的 Apache Solr 企业搜索服务程序,它以可移植的 war 文件的形式发布,提供了立等可用的索引和查询功能。用户通过 HTTP 界面与 Solr 交互,用 XML 文档和 HTTP GET 参数向 Solr 提交索引内容和进行查询。Solr 还提供了主 - 从索引复制机制,以便在大规模的应用中分散查询负载。

Solr 最初是由 CNET Networks 开发的,后来在 2006 年被捐赠给了 Apache 软件基金会。目前它已被几个高流量的公众网站用作搜索程序。社区对其的反应也很好,有用户报告说在索引了高达数百万个文档的情况下,Solr 仍然维持良好的性能表现。

Solr 的特性可以分成以下几类:

Schema

  • 定义文档中的索引域(field)和索引域类型
  • 动态索引域功能,可以随时增加新索引域
  • 显式类型消除了猜测索引域类型的需要
  • 停止词(stopword)表、同义词表和保护词表的配置被放到外部文件中
  • 多个新增的文本分析组件,包括分词、正则表达式过滤器和近似读音过滤器

查询

  • HTTP 界面和可配置的应答格式(XML/XSLT、JSON、Python、Ruby)
  • 可按任意数量的索引域排序
  • 查询词高亮的上下文片断
  • 固定的评分范围和前缀查询——没有 idf、coord 或 lengthNorm 因子,也没有限制查询所匹配的关键词数量
  • 函数查询——评分受到索引域的的数值取值或次序的函数影响
  • 日期计算——查询和更新中的日期可用与当前日期的差值来指定

核心

  • 可插拔的查询处理器和可扩展的 XML 数据格式
  • 由唯一索引主键确保的文档唯一性
  • 批量更新和删除,以确保高性能
  • 由索引变更所触发的命令,用户可对其进行配置
  • 能正确处理用于排序和范围查询的数值类型

缓存

  • 可插拔的缓存实现
  • 在后台对缓存的“自动预热(Autowarming)”(当前搜索器最后访问的缓存内容将被自动填充进新搜索器的缓存,以在索引 / 搜索器变更时获得更高的缓存命中率)
  • 快速 / 轻量的过滤器实现
  • 带有“自动预热”功能的用户级缓存

复制

  • 通过远程同步(rsync)传输高效分发变化了的索引片段
  • 主动获取(Pull)策略,令搜索器的增加变得简捷
  • 可配置的分发周期,允许在及时性和缓存利用率之间获得平衡

管理界面

  • 对缓存利用率、更新和查询的全面统计信息
  • 文本分析调试器,可显示文本分析器每一阶段的结果
  • 带调试输出的 Web 查询界面

月初发布的 1.2 版增加了以下新特性:

这是 Solr 孵化成功后的第一次发布,这次发布带来了很多新特性,包括从 CSV/ 分割文本加载数据、定时自动提交、更快的词素划分(faceting)、反向过滤器(negative filter)、拼写检查处理器、近似读音词汇过滤器、正则表达式文本过滤器,以及更多的灵活的插件。

developerWorks 上最近发表的两篇系列文章详细介绍了Solr 的安装、配置、使用和调优的全过程。

查看英文原文: Apache Solr: Lucene Based Server Provides Highly Scalable Enterprise Search

2007-06-19 05:001762
用户头像

发布了 225 篇内容, 共 63.3 次阅读, 收获喜欢 50 次。

关注

评论

发布
暂无评论
发现更多内容

Ghost Buster Pro for mac(苹果电脑内存清理专家) v3.3.2激活版

Rose

嘿!通义灵码周边「超大鼠标垫」上线啦,更多玩法等待解锁

阿里云云效

阿里云 云原生 通义灵码

作为ToB市场总监的你 被老板质疑过花销太大吗?

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB销售

RazorSQL for Mac(多功能SQL数据库编辑器) v10.6.1注册激活版

Rose

麻省理工IOT教授撰写的1058页Python程序设计人工智能实践手册!

我再BUG界嘎嘎乱杀

Python 人工智能 程序设计 后端 开发语言

Workflow通用并发控制组件:ResourcePool资源池

1412

c++ 开源项目 workflow 并发’

DBeaverUE for Mac(数据库管理软件) v24.1.3 旗舰激活版

Rose

如何冲破大模型时代的算力关卡?天翼云给出答案

脑极体

AI

「最新永久激活版」DaVinci Resolve Studio 19 ( 达芬奇影视后期调色剪辑) v19.0B5激活版

Rose

Dynamic Wallpaper for Mac 个性化高清动态壁纸软件 苹果壁纸下载

Rose

无需业务改造,一套数据库满足 OLTP 和 OLAP,GaiaDB 发布并行查询能力

Baidu AICLOUD

OLAP 云原生数据库 HTAP

项目提效神器:10款顶级项目工单管理系统

爱吃小舅的鱼

项目管理 项目管理系统 工单管理 项目工单管理 项目工单管理系统

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS Huawei (华为) 定制版

sysin

macos esxi OEM

计算机视觉的基础概念与入门

我再BUG界嘎嘎乱杀

Python 编程 后端 计算机视觉 开发语言

蓝易云 - 中小型企业为什么纷纷选择云服务器?

百度搜索:蓝易云

运维 服务器 云服务器 服务器租用 高防服务器

Sketch for mac(专业矢量绘图设计软件) v100.2中文激活版

Rose

Altair HyperWorks 新版本|AI 赋能设计与仿真,驱动全球领先创新技术

Altair RapidMiner

人工智能 设计 仿真 工程 altair

嘿!通义灵码周边「超大鼠标垫」上线啦,更多玩法等待解锁

阿里巴巴云原生

阿里云 云原生 通义灵码

万界星空科技电线电缆行业MES系统核心功能

万界星空科技

mes 万界星空科技 电线电缆行业 电线电缆mes

DBeaverEE for Mac(数据库管理) v24.1.3 企业激活版

Rose

Magic Disk Cleaner for Mac(磁盘垃圾清理工具) v2.8.1激活版

Rose

说说XXLJob分片任务实现原理?

王磊

Java

网络爬虫开发:JavaScript与Python特性的小差异

我再BUG界嘎嘎乱杀

Python JavaScript 爬虫 开发语言

AI技术图像编辑软件:Luminar Neo for Mac/win 激活版

你的猪会飞吗

苹果软件下载 Mac破解软件

蓝易云 - MySQL的Json类型个人用法详解

百度搜索:蓝易云

json MySQL 云计算 运维 数据

Marked 2 for Mac(文件预览工具) v2.6.38免激活版

Rose

阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云大数据AI技术

大数据 数据仓库 OLAP EMR

蓝易云 - 在云上使用过哪些外网暴露服务,简单说一下优缺点(nginx-ingress,treafik,云alb,云loadblance)

百度搜索:蓝易云

nginx 运维 云服务器 Traefik loadbalance

Dato for Mac(菜单栏时钟软件) v5.3.1激活版

Rose

Rhinoceros 8 (犀牛8 中文最新版) v8.9下载

Rose

Apache Solr:基于Lucene的高伸缩性企业搜索服务器_Java_James Kao_InfoQ精选文章