立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

玩转大数据,QCon 上海 2016 热点前瞻

  • 2016-08-11
  • 本文字数:3864 字

    阅读完需:约 13 分钟

预计到 2020 年,全球数据总量将超过 40ZB,如果不能有效地存储、管理和使用数据,将给企业带来的是巨大的成本,同时数据的玩法和应用越来越多、业务的场景越来越复杂,给数据的存储和计算等不断带来新的挑战。

伴随着各种大数据基础框架的百家争鸣和一步步优化,整体解决方案的数据平台得以迅猛的发展,使得不仅专业人员可以开发数据产品,业务和产品等非技术人员也慢慢能方便的构建数据产品。同时大数据除了在广告、推荐、风控等领域继续深耕细作外,在智能客服、供应链、物流、图像、甚至足球运动等领域也扮演越来越重要的角色。

在将于 10 月 20~22 日举行的 QCon 上海 2016 上,我们就准备了很多大数据方面的精彩内容,邀请了 Google、Netflix、LinkedIn、Spotify、阿里巴巴、百度、腾讯、360、携程等公司的技术专家,来分享他们的实践经验。

我们一起来看看。

Google 的盈利主要来自于其广告系统。黄科,Google 在线显示广告部门工程师。在 Google 工作 9 年,其中一半时间在山景城总部 AdSense 团队,另外一半时间在纽约分部 DoubleClick 团队。一直从事后台技术开发工作。对在线广告的全系统,包括广告的买方、卖方及中间的交易平台有深入的了解。

他将分享《在线显示广告中的优化问题》。

在线广告是一个很大的市场,随着广告从传统媒体向互联网媒体迁移,这个市场还在快速增长。有钱的地方就有江湖,不同的角色在这个市场中采取各种手段和技术来优化自身的利益。

从广告卖方的角度来看,优化问题包括:如何在线分配广告位给不同类型的买家(如预购买买家、即时买家);如何平稳投放给预购买买家的流量;如何最大化出售给即时买家的广告位的收益。

从广告买方的角度,优化问题包括:各种率,如点击率、转化率的预测;作弊流量的检测;对有限预算的买家如何平稳分配预算;用户体验的预测;重复流量的检测;广告形式的轮转;系统反应时间的优化。

演讲中将具体分析。

Netflix 是一家数据驱动型公司,许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据,数据流水线负责从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)传输如此大规模的数据。这次我们邀请到 Netflix 的架构师 Steven Wu(吴震),他在 Netflix 的 Real-time Data Infrastructure 组工作。近期完成了数据流水线从 Chukwa 到 Keystone 的演化。

他将分享《打造万亿级别的数据流水线》。

演讲将介绍 Netflix 数据流水线过去几年的演化之路,深入探讨新的 Keystone 数据流水线的架构和一些设计抉择,分享 Keystone 在实战中遇到的问题和得到的教训,并浅谈对 Keystone 未来的一些想法。

Apache Kafka 是 LinkedIn 贡献出来的系统,几乎成了数据基础设施的标配。这次我们邀请到了 LinkedIn 的 Kafka 生态平台设计和开发的主要参与者秦江杰。他主导了包括 Kafka Cruise Control,likafka-clients 等多个 Kafka 相关项目的架构设计和整合,同时也是 Kafka 开源社区的主要贡献者之一。

他将分享《使用 Apache Kafka 进行关键业务消息传输》。

Kafka 作为高可用的分布式消息系统对消息内容和格式是完全开放的。这使得 Kafka 可以被用作各种应用之间和内部的消息传输。LinkedIn 最近利用了 Kafka 进行内部 NoSql 数据库 Espresso 的内部冗余数据备份。在这个过程中,我们解决了许多具有挑战性的问题。这些问题涉及到消息传输的可靠性和完整性,性能和延迟优化,数据安全性以及超大消息的处理等。这些问题的解决对于利用 Kafka 来进行关键业务的数据传输是至关重要的。演讲中会对我们的解决方案进行总结和分享。

Spotify 是全球最大的正版流媒体音乐服务平台。Kinshuk Mishra,Spotify 广告工程技术总监。他的团队负责 Spotify 的广告基础设施、多平台广告产品和广告优化。作为早期加入 Spotify 的工程师之一,他在推动 Spotify 工程技术演进方面做了很多工作。

他将分享《Spotify 广告系统架构演进》。

在产品高速成长的公司中,随着技术的改进,系统的持续演进是不可避免的。产品和业务需求也不断演进,规模的变化又会影响运营成本。近年来,Spotify 的广告系统经历了几次大的变化。对 Spotify 的广告技术栈而言,性能是刚需——要做到大规模、高可用、低延迟。任何宕机或业务中断都会直接影响收入。随着新兴消费平台的兴起,后端和数据基础设施技术也已经成熟,Spotify 的产品也有很多改进。广告技术系统的需求也在变化。Kinshuk 将在演讲中分享保证日常服务不中断的前提下改进 Spotify 广告系统的经验。

随着数据规模不断扩大,很多公司也会投入很多人力进行相关研发。如何构建更高效的研发体系呢?张磊(花名宗超),阿里数据技术及产品部高级技术专家。拥有多年数据研发经验,参与过阿里集团的登月计划、公共层建立等多个重大项目。

他将分享《阿里巴巴的数据研发体系是如何建立和管理的》。

数据研发经常会遇到这些问题:

  1. 研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?
  2. 业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?
  3. 从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?
  4. 大数据建设的标准规范,如何制定并有效的执行?
  5. 数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?

经过几年的摸索,我们通过 OneData 研发体系能够比较有效的解决上述问题。OneData 定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。

外卖是中国目前最火的互联网 O2O 业务之一。蒋凡,百度外卖高级研究员,技术委员会主席,2006 年毕业于中国科学技术大学,进入百度后设计开发百度日文搜索引擎,是百度日文的早期核心员工。2012 年加入百度知心团队,设计开发新一代的推荐搜索引擎,改变了百度搜索右侧的展现形态。2014 年加入百度外卖团队,负责物流调度、个性化推荐、智能营销和画像建模等多个技术方向。译有《推荐系统》(人民邮电出版社)和《推荐系统:技术、评估及高效算法 》(机械工业出版社)。

他将分享《外卖物流配送的大数据创新实践》。

餐饮 O2O 行业连接线上线下的订餐需求,将传统的到店消费模式改造成更加灵活便捷的到家消费模式,极大降低了用户的消费成本和商户的固定成本。外卖平台在这里扮演角色除了促进线上需求向线下转化,也包括达成订单的最后一公里任务——物流配送。高效的物流配送能力是决定外卖平台商业模式成败的关键,也是 O2O 经济区别于传统经济的根本,即运用大数据相关的云计算、深度学习和可视化技术提升行业效率,创造并满足新的民生需求。本次分享深入介绍了百度外卖物流调度系统应用大数据技术,摸索业务规律的过程和创新实践经验。

再来看看合约广告方面的话题。陈戈,腾讯广告平台产品部广告引擎与数据算法中心副总监。负责广告后台服务,算法和数据的研发工作。硕士毕业于上海交通大学,先后在百度和腾讯工作,在计算广告领域有多年的经验。

他将分享《腾讯合约广告引擎与算法实践》。

合约广告是品牌类展示广告的主要模式,在腾讯视频、腾讯新闻 APP 和腾讯网等腾讯媒体中的合约广告收入已达百亿规模。广告引擎与数据算法对合约广告的变现效率具有重大影响,面临着很多有特色的挑战,如库存预估、广告在线投放算法、广告售卖库存分配等。

本次分享讲介绍腾讯合约广告引擎与算法的创新与实践,包括系统架构,核心算法 ,合约广告的程序化购买等。

除了使用开源的大数据框架,很多公司也会针对自己的业务特点研发一些自由的平台。魏自立,360 高级工程师 & 资深顾问。参与建设了全世界首个也是目前全世界最大的云查杀安全系统,也是 36 搜索引擎的核心开发。在分布式网络服务器架构与计算、大规模系统性能调优等方面积累了大量实践经验,目前负责 360 核心安全业务线的云引擎服务团队。

他将分享《如何打造一个百万亿级的日志搜索引擎:Poseidon》。

Poseidon 系统是一个日志搜索平台,可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一家安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率。Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据集中找出我们需要的数据,只需要花费几秒钟时间,大大提高工作效率;同时,数据不需要额外存储,节省了大量存储和计算资源。该系统可以应用于任何海量 (从万亿到千万亿规模) 的查询检索需求。

OTA 公司的业务也有自己的特色。于磊,携程基础大数据产品团队总监。他将分享《携程的推荐及智能化算法及架构体系实践》。

区别于一般电商公司,OTA(Online Travel Agent) 公司的业务线繁多,各业务线的线上流程、商品数据、用户行为、用户需求和订单逻辑差异性极大,不同业务线,近似于完全不同的行业。但是同一般大型电商公司一样,OTA 的大数据营销平台也同时面对着公司跨繁多业务线的个性化推荐、进阶销售(up-selling)和交叉销售(cross-selling)的业务诉求。本次分享将介绍携程通用实时个性化推荐架构和算法体系设计方面的最新进展。

1 号店供应链优化部负责人杨光耀、搜狗资深研究员周泽南、英特尔资深架构师叶军、LinkedIn 业务分析经理赵晟和Autodesk 高级工程师俞戴龙(Wally Yu)等专家也将带来大数据相关的分享,敬请期待。

8 月 21 日前报名,可享 8 折优惠。

获取 QCon 最新消息,第一时间观看演讲视频,欢迎关注 QCon 微信公众号。

2016-08-11 04:131443
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 134.0 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

BI商业智能工具改变企业发展态势

对不起该用户已成仙‖

一名中级程序员应该具备的技能

树上有只程序猿

编程 程序员 低代码 职业生涯 JNPF

一次搞懂线性稳压器/LDO的工作原理

元器件秋姐

物理 电路 元器件 PCB 稳压器

鲸鸿动能荣获2023 TopDigital 3项大奖

最新动态

拉链表的原理及简单实现

数新网络官方账号

大数据 拉链式散列表

hive数据迁移

数新网络官方账号

大数据 hadoop hadoop spark hive

解读 RocketMQ 5.0 全新的高可用设计

阿里巴巴云原生

阿里云 RocketMQ 高可用 云原生

Kafka优化

数新网络官方账号

大数据 zookeeper

使用堡垒机的意义你知道吗?能解决哪些问题?

行云管家

网络安全 信息安全 堡垒机 数据泄露

k8s实战案例之部署redis单机和redis cluster

不在线第一只蜗牛

k8s

玖章算术与百度智能云达成合作,「NineData SQL 开发」成为百度智能云主推的数据库工具

NineData

数据库 百度智能云 云市场 玖章算术 NineData

华为云CodeArts TestPlan测试设计:守护产品开发质量之魂

华为云PaaS服务小智

云计算 软件开发 华为云 产品测试

如何使用 Terraform 和 Git 分支有效管理多环境?

SEAL安全

git Terraform

行云管家- 积极探索“AI+信息安全”的创新融合

行云管家

网络安全 信息安全 智能 AI智能

这些面试技巧,助你升职加薪、迎娶白富美

伤感汤姆布利柏

为什么需要数字化?如果实现数字化?

高端章鱼哥

低代码 数字化 企业管理软件 JNPF

BI商业智能工具成宠儿,企业降本增效优质工具

夜雨微澜

一定要看的前端codeReview规范指南

快乐非自愿限量之名

前端 技术框架

AIGC+办公|大厂争先抢占高位的AI,开始“卷”打工人了吗?

TE智库

人工智能 办公 打工人 AIGC 生成式AI

Flume简述

数新网络官方账号

数据采集 flume

Android SDK安全加固问题与分析

百度Geek说

android 安全加固 企业号 6 月 PK 榜 6 月 优质更文活动

从“云原生”到“比Flink快十倍”:RisingWave的寻找自我认知之旅

吴英骏

数据库 sql 流处理

香港云主机为你的业务注入强大的云端动力!

一只扑棱蛾子

香港云主机

SpringBoot 2 种方式快速实现分库分表,轻松拿捏!

程序员小富

分库分表 springboot ShardingSphere

一年省七位数,得物自建HFDS在 Flink Checkpoint 场景下的应用实践

得物技术

大数据 阿里云 成本优化

车联网 CAN Bus 协议介绍与数据实时流处理

EMQ映云科技

物联网 mqtt canbus

svn提交规范,与Git相得益彰

互联网工科生

git svn

通过腾讯云SES服务发送邮件

排骨虾

腾讯云 #go 邮件通知

华为云专家出品《深入理解边缘计算》电子书上线

华为云PaaS服务小智

边缘计算 华为云 华为开发者联盟

玩转大数据,QCon上海2016热点前瞻_大数据_臧秀涛_InfoQ精选文章