写点什么

节约 60% 成本!虎牙直播云端大数据是怎么做到的?

  • 2020-05-15
  • 本文字数:2851 字

    阅读完需:约 9 分钟

节约60%成本!虎牙直播云端大数据是怎么做到的?

引言

虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台 NimoTV 等,产品覆盖 PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达 1.5 亿。


如何借助于海量业务数据将全平台的优质内容与终端用户更智能、高效地连接起来,为公司运营和业务发展提供更为有效的数据能力支撑,是虎牙大数据团队(下面简称虎牙)过去和未来一直需要深入思考和探索的重要使命。为了达成以上愿景,虎牙选择与腾讯云 EMR 团队合作,接入大数据云端解决方案。


本文将通过案例解读,带大家深入了解虎牙云端大数据实践。

一、虎牙直播大数据分析场景

1. 背景介绍

虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台 NimoTV 等,产品覆盖 PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达 1.5 亿。


2. 大数据场景介绍

意识到数据对于业务的重要价值,虎牙很早就成立了近百人的专业大数据团队,这个团队拥有业内卓越的数据技术能力和业务理解力,以应对海量数据的高效存储计算、算法构建、业务价值洞察等领域化工作。


经过多年的建设,该团队围绕数据在各个领域都取得了极为显著的进展,真正让数据成为优质内容与终端用户连接的催化剂。



虎牙大数据团队基于开放 Hadoop 技术栈快速构建了稳健的全平台大数据平台,以支撑近百 P 规模的离线、实时流式数据的高效存储计算及数据科学探索;同时也在数据领域价值应用上进行精准内容推荐、经营分析、用户体验改善等数据应用价值探索。



借助于全平台大数据平台,虎牙全公司各业务线可以快速、低成本地接入业务线数据,并可借助于该平台进行持续的技术演进。


终端客户可以及时获取到与自身兴趣强相关的个性化优质内容(电竞、主机游戏、手机游戏、美食、二次元等),获取沉浸式的体验。


作为内容供应方的主播也可以通过对自己直播数据的分析,调整演播风格及内容吸引更多用户关注。

二、大数据分析的挑战

基于大规模的数据增长以及业务的更高诉求,人们对数据工具提出了更为实用的要求。随着时间的流逝,传统的 IDC 自建大数据分析平台逐渐显现出两个问题:响应不够及时,成本高。


1. 响应及时性挑战

第一个挑战在突发任务响应的及时性上。例行任务按照时间维度可以分为月、周、天、小时、分钟,这些任务被均匀地分配到了大数据分析平台中,平台的负载也长期维持在合理(相对饱和)的范围内,很好地利用了昂贵的 IDC 硬件资源。


但是随着大数据分析在业务价值挖掘上的作用愈加重要,突发及新增的分析任务变多了起来,此时,趋于饱和使用率的硬件资源便会成为瓶颈,从提交预算申领设备到新设备加入分析集群通常需要在两周才能完成,但这也往往导致结果延期交付。


另一个随之而来的的问题是:预留更多的硬件设施也意味着性价比的降低。

2. 成本挑战

第二个挑战在冷数据的存储成本上。随着时间推移,越来越多的数据变成历史数据,占用硬件资源不变而使用率却在下降,如何降低冷数据的存储成本,同时在需要的时候又能快速分析,这也是一个比较有挑战的课题。

三、云端大数据解决方案

为应对以上大数据分析领域的挑战与瓶颈,虎牙大数据团队不断探索着更加贴合业务实际需求的解决方案。经过多年发展,沉淀出了直播领域丰富的大数据分析经验,虎牙大数据团队在逐步上云享受云平台所提供的灵活、开放、丰富的产品及服务的同时,也正与腾讯云大数据团队筹划共同推出面向行业的通用开源解决方案,实现了云厂商和互联网企业的大数据技术协同,共同推进大数据技术及行业方案的演进。

云端大数据解决方案

近期虎牙大数据团队接到的一个突发任务成为其与腾讯云大数据团队合作的契机。这个任务需要针对 2019 年全年数据进行分析,并要在周末两天内得到分析结果。


按以往处理经验,在不影响原例行任务运行的前提下,需要对 IDC 集群进行扩容来满足突发任务的运行,很明显对此次时间紧的任务并不是最好的方案(申请新设备耗时久并且也造成长期成本浪费)。


云端大数据解决方案具有灵活高效,成本节约的显著特点 。不仅可以做到业务持续演进及全球化快速部署,在温冷数据存储资源,以及超额冗余计算资源成本节约方面也表现突出。


基于以上优势,虎牙大数据团队开始尝试使用弹性的云端资源来解决任务。经过多方对于产品性能以及成本的考察,在与腾讯云大数据团队进行交流后,共同敲定了云端大数据解决方案:


首先利用虎牙 IDC 环境与腾讯云的专线,将温冷数据导入到腾讯云 COS 中(优先导入了本次分析用到的 2019 年数据);然后通过腾讯云弹性 MapReduce(EMR)产品创建的 Hadoop 集群分析已导入到 COS 中数据。


分析任务最终顺利按时输出结果:20 分钟内便利用 EMR 创建了上百个节点的分析集群,2 小时内部署完成分析任务, 1 天半后提前得出分析结果。


分析任务结束后,便对 EMR 中的临时分析任务集群进行了销毁不再产生费用,COS 作为温冷数据统一存储介质继续保留支持后续新的紧急任务(只需随时新建云端 EMR Hadoop 集群基于 COS 中数据进行分析)。

四、大数据云端化带来的核心价值


此次虎牙直播大数据解决方案的成功尝试,最直接体现了大数据分析云端化的两点价值:灵活高效以及成本节约。

1. 灵活高效:分钟级集群创建

得益于腾讯云 EMR 产品的存储与计算分离的特性,数据统一存放于 COS 中,EMR 分析集群在任务需要时随时创建、在任务执行完毕后销毁集群,这就是云端的灵活能力;而在 EMR 集群创建过程中,上百节点规模集群的创建时间也仅需要 10 多分钟,这就是云端的高效能力。

2. 成本节约:60%柔性成本节约

云端大数据方案提供两层的成本节约:


(1)将腾讯云对象存储 COS 作为温冷数据的统一存储媒介,替换掉昂贵的 IDC 设备,这是第一层直接的成本节约。


(2)第二层的成本节约来源于 EMR 灵活架构的使用,EMR 分析集群能直接分析 COS 中的数据,使得我们能够按需创建及销毁集群,不用长期维持冗余设备,非常契合突发任务的场景。


结合 EMR 产品以往客户经验来看,会带来高达 60%的柔性成本节约。

五、云端数据架构的优势

云厂商在云端提供了丰富的大数据产品和服务,涵盖从大数据基础设施、全链路数据工具链、领域数据价值应用在内的各个环节。


基于云端的开放大数据技术和产品,企业用户可以快速构建迁移企业数据架构,甚至把已有大数据架构无缝整合到云端。



得益于云端的海量存储/计算设施及云厂商在大数据开放技术领域的大规模投入,云端大数据产品和服务呈现出以下几个特点:



云端大数据基础设施产品以其技术开放性、全链路覆盖、灵活性获得了互联网企业数据 IT 团队的一致认可,越来越多的企业也逐步意识到云厂商雄厚技术保障所带来的隐性价值认同。借助于云端大数据基础设施进行以数据驱动的业务创新、运营创新已成为新一代互联网企业的业界共识和主流趋势。


虎牙与腾讯云 EMR 产品的合作很好地诠释了这一趋势,互利共赢,释放多元数据价值。腾讯云大数据团队将不断打磨产品,探索惠及更多行业场景的云端实践之路。


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接


https://mp.weixin.qq.com/s/4PVMw72k-XjKRJ6A7HhleA


2020-05-15 10:002158

评论 1 条评论

发布
用户头像
虎牙存储、计算、网络方向诚聘英才,大牛多多,欢迎有意向者将简历投至caixiaodan@huya.com
2022-02-09 11:31
回复
没有更多了
发现更多内容

如何在生成式AI里使用 Ray Data 进行大规模 RAG 应用的 Embedding Inference

Zilliz

人工智能 非结构化数据 向量数据库 LLM 大语言模型

探索 Amazon Q Developer 那些有趣的功能

亚马逊云科技 (Amazon Web Services)

专业IT需求管理:2024年10大工具全指南

爱吃小舅的鱼

需求管理 软件需求管理 需求管理工具

在项目中到底应不应该用jwt?

左诗右码

Go

国内差旅报销系统排名:2024年最主流7大选择

易成研发中心

项目管理 报销管理系统

lastTab—Chrome 拓展开发实践

FunTester

《Linux/UNIX系统编程手册》PDF

程序员李木子

盐城销量比赛 -- YR Tech团队比赛攻略

阿里云天池

1688商品详情API返回值:商品库存管理的智能化

技术冰糖葫芦

api 货币化 API 接口 API 文档 API 测试

ppt目录页怎么做?2款自动生成PPT目录的AI工具推荐!

彭宏豪95

效率工具 职场 PPT 办公软件 AI生成PPT

Koupleless 可演进架构的设计与实践|当我们谈降本时,我们谈些什么

SOFAStack

开源 微服务 应用 架构治理 应用构建

电商平台服务器 IP 地址遭受攻击?

网络安全服务

服务器 电商平台 DDoS IP地址 DDoS 攻击

从0到1学会Jetty内存马注入

我再BUG界嘎嘎乱杀

黑客 网络安全 jetty 网安 内存马

从 ClickHouse 到 Apache Doris:快成物流的数智化货运应用实践

SelectDB

数据库 数据仓库 Doris 大数据 开源 实时分析

一文带你玩转全新采集配置 CRD:AliyunPipelineConfig

阿里巴巴云原生

阿里云 云原生 iLogtail

OpenAI 重大人事变动,联创加入死敌;阿里视频框架 Tora 操控物体运动轨迹丨 RTE 开发者日报

声网

如何在C++、PHP、GO中使用AI生成PPT API接口

幂简集成

API AI API

工单触发器如何助力企业提升效率?天润融通案例解析

天润融通

人工智能 天润融通

网安科班精选!爱荷华大学教授的网络安全零基础入门教程!

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 网络攻防 网安

TeleVis:基于 NLP 的新闻舆情可视化项目

阿里云天池

OpenAI 收购 Rockset:大模型如何使用 OLAP 赋能实时洞察业务场景

腾讯云大数据

大模型 rag

被怼了:acks=all消息也会丢失?

王磊

Java

Apache Doris 全新分区策略 Auto Partition 应用场景与功能详解

SelectDB

数据库 数据仓库 OLAP Doris 分区策略

鸿蒙智行享界S9发布上市|小艺一语直达奢享空间

Geek_2d6073

Omnissa Horizon 8 2406 (8.13) 发布下载 - 虚拟桌面基础架构 (VDI) 和应用软件

sysin

vSphere vmware esxi horizon

美年健康AI算法大赛--季军解决方案

阿里云天池

汇聚行业实践,树立应用典范——《Serverless应用实践案例集》重磅发布

华为云PaaS服务小智

Serverless 华为云

人工智能助力芯片半导体发展,开拓芯片设计技术新趋势

Altair RapidMiner

人工智能 芯片 半导体 altair

深度解读KubeEdge架构设计与边缘AI实践探索

EquatorCoco

人工智能 边缘AI

企业级敏捷框架:业务驱动型敏捷与产品需求团队

俞凡

团队管理 敏捷

69 个Spring mvc 全部注解:真实业务使用案例说明(必须收藏)

肖哥弹架构

spring springmvc springboot 注解

节约60%成本!虎牙直播云端大数据是怎么做到的?_架构_云加社区_InfoQ精选文章