写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186489

评论

发布
暂无评论
发现更多内容

去哪儿是如何做到大规模故障演练的?

TakinTalks稳定性社区

自动化 混沌工程 故障演练

软件测试丨基于Junit4,利用xUnit框架让你的测试用例可维护性大幅提升

测试人

软件测试 单元测试 自动化测试 测试框架 测试开发

手动测试依然很重要

FunTester

构建数字时代下的软件供应链安全体系

云起无垠

软件 软件供应链安全

易观千帆 | 10月手机银行APP用户体验GX评测

易观分析

手机银行 GX评测

应用并管控“两库”是信创软件安全的核心能力

云起无垠

Fuzzing

Guitar Pro2023吉他软件最新版本安装包下载

茶色酒

Guitar Pro Guitar Pro8

企业数字化转型关键路径:构建数据驱动的管控体系

元年技术洞察

数字化转型 数据驱动 方舟平台

我们是如何追逐元宇宙、XR等“概念股”浪潮的?

阿里巴巴终端技术

3D渲染 3D vr

为云原生插上翅膀,天翼云弹性存储CStor-CSI助力容器腾飞

天翼云开发者社区

容器 云原生 云存储

Python 缩进语法的起源:上世纪 60-70 年代的大胆创意!

Python猫

Python

极客时间运维进阶训练营第八周作业

独钓寒江

自助取数、即席分析...瓴羊Quick BI助力企业数字化转型

对不起该用户已成仙‖

持续应用安全(CAS)研讨之:Fuzzing

云起无垠

DTCC2022预告 | 玖章算术叶正盛:程序员必须掌握的数据库原理

NineData

数据库 数据迁移 数据管理 DTCC2022 NineData

做7秒动画赢13W大奖?总奖池超80W、国内最火爆的3D渲染动画创作大赛开始报名!

Renderbus瑞云渲染农场

3D渲染动画大赛 3D动画制作 瑞云渲染CG竞赛

多样化数据看板,瓴羊Quick BI满足企业经营管理需求

对不起该用户已成仙‖

什么是BPM系统?BPM流程管理系统介绍

优秀

BPM 业务流程管理

开发小游戏的流程及难点汇总

Onegun

小程序 小程序容器 小游戏 小游戏开发

JAVA中的注解可以继承吗?

JAVA旭阳

Java

如何设计一个高性能的图 Schema

NebulaGraph

图数据库 图建模

如何绘制甘特图?这里有一份最全的教学指南(建议收藏使用)!

PMO实践

甘特图 PMO 项目经理

数字孪生可视化技术打造未来智慧码头系统

2D3D前端可视化开发

物联网 智慧港口 数字孪生 智慧码头 5G智慧港口

服开与编排,老兵新传

鲸品堂

电信运营商 12 月 PK 榜

小游戏开发者变现攻略

Onegun

小程序 超级app 小游戏

盘点新能源汽车常用的8种传感器

元器件秋姐

传感器 新能源汽车 智能传感器 新能源 IGBT

YMatrix 创始人姚延栋,获“最具发展潜力与创新影响力的创业者”称号

YMatrix 超融合数据库

创业 超融合数据库 YMatrix

如何在Android安卓环境运行小程序游戏

Onegun

安卓 andiod 小游戏

新思科技发布第13版软件安全构建成熟度模型报告

InfoQ_434670063458

安全评估 新思科技 BSIMM

掌握分布式环境缓存更新策略,提高缓存与数据库双写一致性!

C++后台开发

数据库 redis 分布式 中间件 后端开发

带你手把手实操一个RPC框架

得物技术

架构 中间件 java client prc 12 月 PK 榜

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章