写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186545

评论

发布
暂无评论
发现更多内容

2024英特尔中国学术峰会:聚焦绿色计算,推动产学融合

E科讯

AI自动化应用开发,让创意与效率并驾齐驱!

测吧(北京)科技有限公司

测试

GOGC招聘集市开始啦

非凸科技

招聘 GOGT 全球开源技术峰会 全球开源极客嘉年华

厦门等保测评机构有几家?在哪里?

行云管家

等保 等级保护 厦门

金蝶云·苍穹追光者开发大赛,点燃高校AI应用创新之火

金蝶云·苍穹

抖音自动化运营神器,7款RPA机器人上线

八爪鱼采集器︱RPA机器人

RPA 自动化 抖音 RPAxAI

大咖公开课 | AI自动化应用开发,让创意与效率并驾齐驱!

霍格沃兹测试开发学社

支付域——收单业务

庄小焱

支付系统 金融 收单 跨境收单

财务规划中创新科技带来的变革力量

智达方通

全面预算管理 财务管理 财务规划

汽车配件行业MES系统:驱动高效生产与智能管理的新引擎

万界星空科技

mes 汽车行业 云mes 万界星空科技 汽车零配件行业

大咖公开课 | AI自动化应用开发,让创意与效率并驾齐驱!

测试人

软件测试

【实战分享】如何获取天猫商品评论数据接口及解析方法

tbapi

天猫商品评论数据接口 天猫评论API 天猫商品评论数据采集 天猫商品评论API

构建业务可观测性:统一数据结构的重要性

可观测技术

数据结构

LeetCode题解:1250. 检查「好数组」,裴蜀定理,详细注释

Lee Chen

关键字搜索新视角:API返回值中的商品热度分析

技术冰糖葫芦

API Explorer平台 API Explorer API 接口 API 测试 pinduoduo API

企业如何通过数据虚拟化,构建逻辑数据编织平台?

Aloudata

数据虚拟化 Data Fabric 逻辑数据编织

Remote Write:观测云数据存储的新篇章

可观测技术

Prometheus

LeetCode题解:1797. 设计一个验证系统,哈希表,JavaScript,详细注释

Lee Chen

初识 TON:账号、Token、交易与资产安全

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

探索Web3:十大全新项目如何颠覆行业未来

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

ETL数据集成丨PostgreSQL数据迁移至Hive数据库

RestCloud

数据库 postgresql hive ETL 数据集成

MVP案例分享:绿野仙踪 - Zappos

ShineScrum

“AI+Security”系列第2期(二):人工智能风险治理机遇与挑战

云起无垠

基于飞桨框架的稀疏计算使用指南

百度Geek说

百度飞桨

观测云的成本效益分析:开源工具在企业监控中的应用

可观测技术

开源

大模型加持,火山引擎数据飞轮转入消费行业

字节跳动数据平台

大数据 数字化转型 云服务 数据平台 火山引擎

LeetCode题解:1234. 替换子串得到平衡字符串,滑动窗口,详细注释

Lee Chen

Visio文件编辑查看工具:Visio Viewer for Mac 激活版

你的猪会飞吗

mac软件下载

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章