HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

蚂蚁金服需要什么样的数据智能人才?

  • 2019-09-02
  • 本文字数:5503 字

    阅读完需:约 18 分钟

蚂蚁金服需要什么样的数据智能人才?

小蚂蚁说:

望京的周日是一周中最安静悠哉的时刻,颇有点高人隐居避世的闲散意味。但阿里中心 20 楼的万松书院里,学术气氛却格外热烈。一群穿着格子衬衫、回力球鞋,满脑子跑数据的年轻人,聚集在一起,共同探讨一个话题:双 I 合璧。


什么是双 I?

“双 I”即 Business Intelligence(商业智能)和 Artificial Intelligence(人工智能),这两个领域相信大家都不陌生,但他们之间的关系是什么呢?是互相竞争,非此即彼;还是相互合作,水乳交融?两者各自的优势在哪?


在科技进步越来越快,商业环境越来越复杂的环境下,如何实现合作过程中“1+1>2”的效果?在蚂蚁金服做数据分析工作和其他科技公司有什么样的差异?而蚂蚁金服有会更看重什么样的数据人才特质呢?带着这些问题,小蚂蚁邀请到了来自蚂蚁金服的三位嘉宾来和大家探讨 AI 和 BI 相遇的可能性,他们是蚂蚁金服商业决策部的资深总监潘崝崝(花名:镸卿);蚂蚁金服人工智能部资深总监徐鹏(花名:无改)和蚂蚁金服人工智能部和国际人工智能团队资深总监蒋松(花名:兜率)。一起来看下现场会碰撞出什么样的火花吧!




案例:从数据中发现事物之间的关联

提问:分享一下利用数据深入挖掘理解人群特征的印象深刻的案例


镸卿:这是一个好问题,也是很多同学最关注的问题。数据挖掘出的人群特征案例大家搜索一下会看到很多很有意思的,例如沃尔玛有个比较经典的尿布和啤酒的故事。对于所谓“没想到的人群特征”,我觉得案例本身还不是最重要的,我们做数据的同学应该更注重的是不要带着预设去看数据,要思考数据显示的特征背后的行为和需求,比如尿布和啤酒的故事背后其实就是一种父母的购物行为模式。


在蚂蚁也有个例子,蚂蚁金服推出刷脸登陆技术之后,后台日志显示,使用人脸识别登录的支付宝用户中,60 岁以上群体有几百万人。 大家一般或许觉得这个年龄层对于新兴技术用的不多,但使用刷脸功能对于所有人来说都既方便又安全,所以很开心看到这样的似乎出乎意料的数据。


还有一个例子。某个营销活动 60%的盈利来自男性。乍一看没什么,因为是一个偏男性受众的活动。但是我们再看一下目标人群,其中 70%是男性。也就是说按人均来看的话,实际上女性的消费需求更高。利用基本的数理逻辑,不带预设的去看就看到了新发现,因为行为数据是最诚实的。做到这点很容易也不容易。



这里我又想再提一点,我们一方面要思考特征的可解释性,同时又要有“不需要过度解释”的快速落地应用的行动力。大家可能看到过一个案例是 Facebook 曾经发现,新用户留存的关键是注册后 14 天内加到 10 个好友。不需要深究为什么是 14 天不是 15 天,是 10 个不是 8 个。因为背后的需求逻辑是合理的:一个信息流为主的社交平台用户如果没有足够的好友,就不会有很好的体验。所以有了这个发现之后立刻要转换成行为,帮助新用户在 14 天内加到 10 个好友。而且后来重复这个分析之后也的确发现这个规律还在,但是具体的数字就不一样了。


徐鹏:举个真实的例子。发现买紧身牛仔裤的女孩,较其他人,买手机碎屏服务的概率更高。于是蚂蚁金服就开发了叫做“碎屏险”的产品,这是非常小但很创新的产品,因为穿紧身裤手机拿在手上容易掉,所以手机经常碎屏。


类似的例子还有很多,一旦发现数据间的强关联之后,就能用很多应用来解决一些小的问题。

人工智能+商业智能是如何成功合作的?

问:能否谈谈双 I 成功合作的案例


镸卿:大家想到蚂蚁金服,一般会先想到支付宝,想到支付宝就会先想到支付。移动支付作为中国新四大发明之一,的确给大家带来很多便利。但是蚂蚁金服不但有支付宝,支付宝也不单是支付。我们给广大商家和消费者提供非常丰富的产品、权益,和服务。例如大家是不是起床之后会先去蚂蚁森林收(偷)点能量呀?家里的水电煤是不是都让支付宝代缴啦?还有理财、保险、公交地铁,都是我们利用科技让大家生活的更方便更幸福的应用。


为了更好的开发和改进这些应用,我们会想知道消费者使用这些产品是什么样的体验,各个产品之间又存在什么样的关系和互相影响。这是一个很有意思也很有意义的分析议题。大家设想一下,那么多的产品,论排列组合的话是个有限集,但是个非常大的有限集。所以要分析每种排列组合所对应的人群,他们的特征,他们的行为和需求,必须要与 AI 合作用建模的方式去挖掘。


所以不久前我们 BI 和 AI 正式立项,从历史数据入手,梳理了多个维度的特征因子,以建模分析,结合业务逻辑,并辅以 ab test 实验测试,深入挖掘这些特征因子以及他们的组合之间的关系,最终不但是有运营应用落地的模型结果,更是总结和沉淀了多个方法论,譬如建模过程优化,前期我们用 GBDT 做出一些重要性排序,然后基于 one hot 处理后的变量分别训练了多个模型,综合考虑准确度、稳定性、可解释性等因素选择。后续还会利用图模型的方法或者其他的建模手段进行新的建模,寻找一些更深层的隐藏特征。


同时这个过程里还沉淀了数据跨域使用的机制,既要保障分析能够完善,又要坚守监管合规要求,可以看到我们 BI 和数据技术团队也有不少合作交流。今天我们在这里交流双 I 合璧,但实际上我更常讲的是数据铁三角:AI, BI, 还有 DT 也就是数据技术团队。我们在蚂蚁金服都是鼎力合作,协同共进的。


兜率:我这里主要代表 A/B 测试团队说一下和 BI 团队的合作。我们和 BI 的合作主要体现在两个方面。



首先,是业务指标和实验指标之间的转换。BI 会和业务团队制定产品的整体发展方向和目标,确定业务的 KPI 和指标体系。A/B 测试团队会和 BI 团队一起,把这些业务指标转化为实验的可执行指标。


其次,是实验结果的分析和解读。BI 作为业务方的代表,对业务的理解更深。A/B 测试团队更多专注在平台建设上,打造出一个更易用、更科学的实验平台。实验结果出来后,A/B 测试团队会从统计学的角色去确保数据的正确性,我们会提供统计显著性等的支持。但是具体的业务逻辑是否合理则是需要由业务方去判断。


徐鹏:拿个营销的场景来分析,双 I 的合作就体现在各个重要的环节,通俗点分,我们来聊聊,在事前、事中这两个环节上双 I 如何完成高效的合作。


1.事前:预测与策略


在营销的场景里面,预测与洞察,是事先比较重要的两个点。


首先来聊聊预测:为什么要预测?简单点来说,想要设定一个目标,这个目标设多少比较合理?如果对于未来,没有一个基本面的判断并做出一个比较好的预估,这个目标就设置的很不合理。我预估一下明年能到多少,那我的目标可以设定的更高一些。


这就涉及到了另一个重要的点:洞察。这里双 I 的合作非常的多,通过对于整个市场宏观到微观的因子建模,通过我们的商业分析师、市场分析、数据分析,要事无巨细,我们得知道四六级考试对我们的影响、知道某地区的销售下降和台风暴雨的关系等等。同时,能够结合一些预测的算法,结合一些模型、可解释性的工作,提升预测的准确性,我们内部对于月维度(30 天之后)的预测,能够做到 10%的平均平方差。当这些预测能力具备之后,事前就可以更从容地指点江山。


2.事中:从宏观到微观


策略从宏观到微观的落地是非常典型的一个双 I 合力去解决的问题。



举个例子,如果需要做一个全国的 GMV,这个值可能很大,怎么拆分落地,首先就需要一个宏观的目标分解、拆分以及资源的调配,这都是宏观面上的策略,在这种层面上,因为样本太少(全国一共才 34 个省级行政区)造成数据的稀缺,机器学习很难解决问题。


这时就可以通过 AI 的方法来解决。比如营销里面,可以通过一个带限制条件的优化问题进行建模,给定多少资源,尽可能的提升一个目标。这时候,通过大数据、样本的建模,我们可以使用深度学习等等一系列手段来优化。这样从宏观上看,是完成一个目标,但是通过分解、拆分的商业手法,将一个很难解的问题,拆分到微观可解的问题,才能发挥大数据的能力,最终才能赢。

业务逻辑+数据分享

问:在蚂蚁做数据和之前公司有什么不同?



镸卿:说到做数据大家可能会想到 Data Science-数据科学,或者 Data Scientist-数据科学家,这个词这两年很热点啊。但是我记得我第一次跟我现在的老板视频面试的时候,我就蛮敢地跟她说我觉得 BI 这个名字更贴切然后做了一番陈述。她是一个阿里合伙人,我觉得她也是个很有眼光的人,当时对我的想法表示赞同。


首先 BI 的 B 是 Business。做 Data 其实不难,做 Business 难。Facebook 是一个产品公司,我来到蚂蚁金服之后立刻体会到需要把自己的产品思维升级到业务逻辑。譬如某一个产品的交互设计看似曲折不直观,背后的原因是这个产品实现的业务,我们和相关方的合作关系,决定了这个交互必须这样来设计。从纯数据角度来看,蚂蚁金服的业务属性也带来比之前大的多的挑战。譬如底层数据的录入,到中间层的建设,到前端的呈现,链路各个环节和逻辑都比以前难的多。譬如现在所有人都可以刷码支付刷码收钱,怎么判断一个人经常收钱是因为他在卖鸡蛋灌饼,还是因为他是小学班主任呢?


其次 BI 的 I 我们说是三个 I 组成的:intelligence, insights, impact 这 3 个 I 都是既需要 science 又需要 art 的。Science 是基础,我们要用数据说话,要科学严谨的用数据说话。在这个基础之上就需要 Art,也就是人的判断和商业理解。所以我们团队的同学是商业分析师不是数据分析师。他们会数据,但是他们更要懂商业,懂市场,懂人。我之前在 Facebook 工作 7 年的后 3 年做的是 B 端的事业,也就是广告,Facebook 的主要盈利来源。来到蚂蚁金服之后觉现在接触的商业模式比以往复杂很多,所以个人市场和商业知识非常多需要补的。我有个小笔记本,里面记的是什么呢,清算和结算的区别,直连间连,表内表外,资费,96 费改,行业产业链和分润关系,诸如此类的都会记下来,很有回归课堂的感觉,非常棒。


整体上做 BI 分析的对象更丰富,一般大家想到数据或者 data science 想到的是数字。我们做 BI 分析不但要用定量的数据,还要用定性的数据,不但要用内部数据,还要用外部数据。因为 BI 是前瞻性的,是面向未来的。内部定量的数据能告诉我们的更多是现在和过去,我们要结合市场调研,行业分析,要看趋势和新兴,甚至要更深层次的看到人的本质需求在科技创新的环境里的体现,才能做好 BI。

聪明 &皮实 &乐观 &自省

问:在蚂蚁做数据的都是什么样的人,他们都有着怎么样的特质?


兜率:在蚂蚁的数据团队大概可以分成五个方向。首先,是数据仓库,他们提供最底层的数据访问、查询和操作的能力;其次,是数据技术,他们提供最底层的分布式计算、存储和调度的能力,帮助各个团队能够自如地处理超大规模的数据,以及实效性相关的技术依赖;然后,是数据产品,他们在各个业务团队,根据业务的具体需求,将数据仓库的数据进一步封闭,将引入产品和算法的能力,帮助业务团队进行更高效的数据分析和决策;再次,是人工智能,我们既有集中式的人工智能平台团队,也有分散在各个业务团队的人工智能应用团队,他们根据具体的业务场景,用 AI 的力量去进行产品和业务和智能化升级,提升用户体验和运营效率,比如说搜索、推荐、客服和助理等;最后,是 BI 团队,他们对接各个业务团队,进行数据分析和决策,利用数据仓库提供的数据、数据产品提供的产品,并与人工智能团队合作,一起实现公司业务的数据化驱动。



各个团队因为他们的定位和角色不同,对人的要求也各不相关。数据仓库和数据技术团队,除了各自的专业性以外,如数据仓库要有 ETL 等基本的数据思维,数据技术要有 hadoop 生态等通用的分布式能力,更需要他们有公司全部的视野,能够站在公司的角色对规划整体的方案。比如说公司级别的数据隐私保护和隔离等,最近欧盟 GDPR 的实施也让整个团队在这块投入了大量的资源。数据产品和人工智能团队需要有更多的业务场景的输入,了解业务的具体模式,能够从业务场景中发现业务痛点,使用数据和 AI 的方式进行解决。BI 团队则是上接公司战略,下接产品实现,一方面需要制定公司级的业务目标,另一方面也需要跟进实际的产品迭代,帮助业务团队分析用户需求、总结产品创新。


在蚂蚁金服,我们对于数据人才的要求,既需要有扎实的数据基础,更需要有复杂的业务场景和变更的适应能力。


镸卿:刚才蒋松提到有 5 类做数据的人。我觉得彼此之间的界限越来越模糊,合作越来越多。所以对于数据人才来说,我们要更全栈,尤其数据团队经理或者项目管理将成为专业或重要的专业模块。我们需要这样的专业模块,推动数据更好的应用特别是跨类跨域的合作。


但横贯所有数据技能之上的更主要的因素,我觉得是人才本身。事情都是人做出来的,专业也需要人来应用。我们热爱的 Lucy 彭蕾姐姐说过阿里有八字人才观:聪明、皮实、乐观、自省,这也是蚂蚁数据团队最鲜明的特质。

有限?无限!

会后我们又和 14 位同学进行了对话,所有同学都表示受益匪浅,超过 70%的他们更是对嘉宾带来的落地案例印象深刻。不难感受到,从专业技能上来看 BI 和 AI 各有所长,BI 需要更懂业务,懂战略,要擅长从宏观层面开展分析,辅助商业决策;AI 需要更懂技术,懂算法,更要从微观层面进行细致的研究,提高分析效率。随着商业环境复杂度的提升以及客户精细化运营要求的提高,双 I 合璧变得越来越重要,只有找到合适的场景,深度融合两者的优势,既发挥 BI 对于宏观战略的洞察分析决策能力,又发挥 AI 在关键微观模型上的的深度算法能力,才能在正确的商业决策下开展精细化运营,实现方向和路径的最优组合,取得商业上的大幅突破。


对于阿里的数据团队而言,如何将双 I 结合以更高效地创造商业价值是我们肩上永恒的使命。当 AI 和 BI 碰撞,到底会生发出多少的可能性?答案也许是无限的,对于未知的精彩探索,我们永远在路上。



本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/9bVVe-qgzoePddKG4C-v1g


2019-09-02 15:503198
用户头像

发布了 150 篇内容, 共 34.3 次阅读, 收获喜欢 38 次。

关注

评论

发布
暂无评论
发现更多内容

浏览器数据库 IndexedDB(一) 概述

编程三昧

数据库 大前端 indexedDB 8月日更

在所有Spark模块中,我愿称SparkSQL为最强!

王知无

架构实战0期毕业设计---电商秒杀系统

谢博琛

架构课程第4次作业

听闻

现代分布式架构设计原则-伸缩性

余先生

可伸缩 伸缩 弹性扩容

老外为了在MacBook上玩原神,让M1支持了所有iOS应用 | Github每周精彩分享第一期

Zhendong

GitHub

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

王知无

架构设计总结

鲲哥

JDK的泛型如何工作的

卢卡多多

Java泛型 8月日更

MinIO存储服务客户端使用指南(三)

liuzhen007

8月日更

消息队列架构设计

thewangzl

蚂蚁金服+拼多多+抖音+天猫Java面经合集,金九银十Java开发校招社招福音!

编程菌

Java 编程 程序员 面试 计算机

5000字阐述云原生消息中间件Apache Pulsar的核心特性和设计概览

王知无

让我们一起开发【菜谱系统】吧,滚雪球学 Python 第三轮项目计划

梦想橡皮擦

8月日更

阿里“宝妈级”之作,这份Spring Security应用到源码手册,全是精华

Java spring 程序员 架构 计算机

雷从九天临,暗由赤地生 - 你的对手只有时间

王知无

193篇文章暴揍Flink,这个合集你需要关注一下

王知无

instanceof运算符的实质:Java继承链与JavaScript原型链

zhoulujun

JavaScript 继承 原型链 instanceof 继承链

总结

杰语

秒杀架构设计

鲲哥

架构实战营 模块三

听闻

二叉查找树的迭代遍历

泽睿

二叉树

QDS05 Prometheus

耳东@Erdong

Prometheus 8月日更

序列化单例模式的实现————readResolve 源码解读

4ye

Java 源码 后端 序列化 8月日更

架构训练营毕业总结

Geek_e0c25c

架构实战营

Android SDK 版本属性

Changing Lin

8月日更

Github首次开放,一天遭狂转 50w 次!大厂内部不外传的 100 万字 Java 面试手册!

编程菌

Java 编程 程序员 面试 计算机

JavaScript new 关键词解析及原生实现 new

zhoulujun

JavaScript new

select、poll、epoll之间的区别

一个大红包

8月日更

架构实战训练营模块五作业

NewBranSTONE

#架构实战营

没有银弹

escray

学习 极客时间 如何落地业务建模 8月日更

蚂蚁金服需要什么样的数据智能人才?_文化 & 方法_Geek_cb7643_InfoQ精选文章