产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

3 年从 200 个数据用户发展到 6000 人,eBay 的大数据平台是如何做到的?

  • 2019-09-04
  • 本文字数:2881 字

    阅读完需:约 9 分钟

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?

在 7 月首届 Kylin Data Summit 上,大会特别邀请到了 eBay 全球研发副总裁、中国研发中心总经理田卫女士带来主旨演讲。eBay,这家在国内非常低调的老牌电商,以其深厚的技术基础在业内广受关注。熟悉 Kylin 的朋友也都知道,Kylin 项目最初也正是在 eBay 内部孵化并完成。今天小编就为大家回顾田卫女士当天的演讲,演讲主题是:增强分析在 eBay 的实践。


增强分析

Gartner 在今年 2 月的数据分析峰会上提出了十项数据发展的趋势,其中“增强分析 Augmented Analytics ”被列在第一条, 被 Gartner 誉为“数据和分析的未来”。

在数据可以被分析前,数据工程师需要对数据进行抽取、清洗、融合等准备工作,以提高数据分析的效率和准确性。增强分析 Augmented Analytics 能够帮助普通用户在没有数据科学专家或 IT 人员协助的情况下,访问有效数据,并对理论和假设情况展开测试与验证。增强分析作为数据分析的高级增强阶段,能为分析计划带来更多自动化动能以及创新洞察力。(点击此处,查看 Gartner 对于增强分析的解读)



田卫,eBay 全球研发副总裁、中国研发中心总经理

eBay 的大数据历程

eBay 始于 1994 年,由 eBay 公司发展历史我们也可以窥见整个电商行业的演变。


eBay 保存了世界上第一笔电商交易数据,一直发展到今天,整个世界电商的发展史都能在 eBay 找到它的痕迹。此外,eBay 横跨了全世界 180 多个国家,eBay 的数据不仅仅局限于某一个地区、市场,是包括北美、欧洲、亚太,整个一条完整的数据链。



通过上图,我们可以对 eBay 的大数据平台有一个快速的了解。eBay 现在处理的数据量涵盖 700PB 数据, 每天查询量在 120 万左右,这对 eBay 大数据系统有着很高的要求。


目前参与这个系统的数据工程师有 6 千余人。Gartner 一份报告显示,在高科技公司内,使用数据来驱动业务增长的人数占 32 %的人。反过来看 68%的人还没有真正应用数据,eBay 现在 1 万 4 千人,整个应用数据的人大概达到将近 40% 左右。这个数据也不是一蹴而就的,在 2015 年时,大概只有 200 个数据工程师和数据分析师在应用数据;随着增强型数据平台的推出,用户人数有了大幅增长。



eBay 的大数据生态,以 Data Fabric 为核心。支持以 API 为基础的数据服务。



eBay 的大数据演进之路


从上图可以看到,2005 年 eBay 的数据平台主要是基于 SQL,record report 系统。到 2010 年,转向了 Visual Based Discovery 阶段。2015 年开始, eBay 从 Teradata 向 Hadoop 大数据平台的迁移,Real-time Streaming 也在那一年出现,进入了一个更为高级的 Visual Based Discovery 阶段。2018 年,eBay 大面积开始应用 Hadoop、Spark;以及基于会话式的、NLU 等增强式数据分析解决方案。这其中还包括图谱的元数据管理系统,以及自动商业洞察等新技术, eBay 从 2018 年开始真正意义上向增强分析迈进了一步。


客户角度的演变

从客户角度看 eBay 大数据的演进,最早是专职的数据分析师,现在随着增强分析平台推出,可以延展到每一位 eBay 的员工。即使用户不了解数据在什么地方,不了解整个数据背后复杂业务逻辑,也能够非常简便地去做一些基本数据分析和查询。


从商业决策的流程来看,从过去静态的商业决策,提前通过一些 SQL、dashboard,延展到现在是一个动态的 data dashboard。以前公司领导们在做商业讨论和决策时,都是由分析师拿一些数据报表,现在直接通过 eBay 的增强数据平台,能够直接通过实时 dashboard,快速地进行商业决策。


数据逻辑非常复杂,而且数据本身也是孤立的,eBay 现在通过 data fabric, 把一个从单个部门孤立的分析视角延展到不同的部门,不同业务之间,能够大家共同协作完成一个商业的决定。这是从客户层面我们看到的一个进化,从过去一小部分的核心决策人,延展到每一个人都在使用数据进行分析,以及通过数据来辅助商业决策的用户。

产品角度的演变

从产品层面,eBay 以前依赖于 Teradata,现在发展到了一个自研的基于开源的一整套解决方案。从使用到的技术上来讲,非常契合 Gartner 的预测,有 Data Fabric,智能化数据运维、Ad-hoc OLAP 查询;以及基于 NLP,机器学习等技术的对话式的交互分析。还有 open metadata, 这是整个大数据智能化很重要很重要的一个核心。eBay 做了一个 open metadata framework 去赋能大数据的演进。



上图是 Gartner 在 2019 年提出的十个大数据领域的趋势,eBay 中国研发中心已经在标黄色的五个方面取得了显著的成绩。eBay 的技术人员会继前行,通过实时分析,与业务部门的深度整合,为 eBay 业务部门提供实时、自动化的,可以进一步提升业务能力的建议。



eBay 数据分析生态

iDo

从数据管理这个角度来看,eBay 有一套完整的 intelligent data operation, iDo,它能够自动化地计划、部署所有的作业,然后自动化进行监测。当有一些作业发生问题的时候,可以进行自动修复。Gartner 预测到 2020 年,增强技术可以降低大概 45% 数据运维人员和数据 IT 人员的投入。在 eBay 当这个 iDo 产品推出以后,eBay 数据运维人员减少了 60%。

Open Metadata

这是一个跨平台,跨领域的平台。可以支持 Teradata, Hadoop,以及其他不同的数据源;能够做自动发现,同时通过图谱把不同数据之间的关系、血缘,以及业务逻辑,数据逻辑整合起来。

Zeta

这个平台相当于数据开发工程师的集成开发环境 IDE,它面向所有的数据开发工程师,当数据工程师需要开发一个数据产品时,这个平台能够帮助工程师有效地构建、部署以及调度作业,并帮助数据工程师进行调优;平台也可以自动分析用户的 SQL,帮助用户诊断其性能瓶颈在什么地方,很方便地帮助用户进行 debug 和调优,以及一键式发布;同时还可帮助数据科学家在这个平台进行 ad-hoc 的查询和基本的分析工作。

MMD

MMD, Moving Metrics Detection,这个平台通过无监督机器学习,去发现数据的 pattern,在哪些地方有瓶颈,然后还可以自动地预测数据 pattern 有可能发生的一些趋势变化,重新找到它的 change point,在新的 pattern 下面再进行进一步发现。

GRO

Global Retail Automation,它是通过机器学习理解市场趋势以及帮助销售人员有效地做他们的库存的管理。做这种定位的管理,能够更好地帮助他们驱动他们在 eBay 上的业务增长。

Nous

Nous 是 eBay 的增强分析产品的代表之一,背后是基于 bot 的技术,用户可以跟它进行交互式的数据查询和报表分析。这个产品体现了三个核心价值:


  • 容易,任何一个人可以容易到像在谷歌上搜索一个普通的关键词一样,去搜索要做的数据分析,或者感兴趣的一些商业上的点。

  • 智能,它取代了传统报表,不但能够产生报表,还可做一些具体定位的分析,可能是因为什么原因造成了现在数据上的一些偏差。

  • 快,无论后台是使用 Teradata 还是用 Hadoop,能够实现非常快非常及时的数据分析的结果。



NOUS -操作简便的查询



iBot-对话式查看数据


eBay 在增强分析数据上刚刚迈了第一步,未来还会继续不断地加快在增强型数据分析和数据管理上步伐;eBay 中国研发中心也期待能进一步跟业务部门集成在一起,为业务部门提供更加实时、便捷的分析服务,助力 eBay 创造更多经济价值;同时 eBay 将秉承一贯作风,把好的技术、实践、产品贡献到开源社区,带动整个大数据业界的发展。


2019-09-04 21:198007
用户头像

发布了 44 篇内容, 共 13.3 次阅读, 收获喜欢 83 次。

关注

评论 1 条评论

发布
用户头像
增长速度惊人。
2020-01-06 21:26
回复
没有更多了
发现更多内容

RazorSQL for Mac(多功能SQL数据库编辑器) v10.6.1注册激活版

Rose

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS Huawei (华为) 定制版

sysin

macos esxi OEM

Rhinoceros 8 (犀牛8 中文最新版) v8.9下载

Rose

Workflow通用并发控制组件:ResourcePool资源池

1412

c++ 开源项目 workflow 并发’

「最新永久激活版」DaVinci Resolve Studio 19 ( 达芬奇影视后期调色剪辑) v19.0B5激活版

Rose

DBeaverEE for Mac(数据库管理) v24.1.3 企业激活版

Rose

Marked 2 for Mac(文件预览工具) v2.6.38免激活版

Rose

麻省理工IOT教授撰写的1058页Python程序设计人工智能实践手册!

我再BUG界嘎嘎乱杀

Python 人工智能 程序设计 后端 开发语言

DBeaverUE for Mac(数据库管理软件) v24.1.3 旗舰激活版

Rose

Dato for Mac(菜单栏时钟软件) v5.3.1激活版

Rose

借助大模型能力,晓多科技智能客服的效率与服务双提升

新消费日报

选择户外LED显示屏的4个理由

Dylan

互联网 广告 信息 LED LED显示屏

人工智能:重塑语言翻译的未来

天津汇柏科技有限公司

人工智能 语言翻译

网络爬虫开发:JavaScript与Python特性的小差异

我再BUG界嘎嘎乱杀

Python JavaScript 爬虫 开发语言

Magic Disk Cleaner for Mac(磁盘垃圾清理工具) v2.8.1激活版

Rose

Dynamic Wallpaper for Mac 个性化高清动态壁纸软件 苹果壁纸下载

Rose

作为ToB市场总监的你 被老板质疑过花销太大吗?

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB销售

蓝易云 - 中小型企业为什么纷纷选择云服务器?

百度搜索:蓝易云

运维 服务器 云服务器 服务器租用 高防服务器

蓝易云 - 在云上使用过哪些外网暴露服务,简单说一下优缺点(nginx-ingress,treafik,云alb,云loadblance)

百度搜索:蓝易云

nginx 运维 云服务器 Traefik loadbalance

Ghost Buster Pro for mac(苹果电脑内存清理专家) v3.3.2激活版

Rose

「空投」对于项目来说是好是坏?

TechubNews

分享 | 建设全渠道反欺诈平台 持续提升交易风险管控能力

芯盾时代

金融 反欺诈 风控系统 风险检测

如何冲破大模型时代的算力关卡?天翼云给出答案

脑极体

AI

阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云大数据AI技术

大数据 数据仓库 OLAP EMR

蓝易云 - MySQL的Json类型个人用法详解

百度搜索:蓝易云

json MySQL 云计算 运维 数据

AI技术图像编辑软件:Luminar Neo for Mac/win 激活版

你的猪会飞吗

苹果软件下载 Mac破解软件

Sketch for mac(专业矢量绘图设计软件) v100.2中文激活版

Rose

得物AB实验平台数据驱动决策实践

得物技术

大数据 架构 统计学 企业号2024年7月PK榜

项目提效神器:10款顶级项目工单管理系统

爱吃小舅的鱼

项目管理 项目管理系统 工单管理 项目工单管理 项目工单管理系统

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?_开源_apachekylin_InfoQ精选文章