写点什么

杭州数澜联合创始人 & CTO 江敏:大数据思维和大数据冶炼 —— 拒绝坐着金山吃馒头

2017 年 12 月 28 日

大家好,我是江敏,来自杭州数澜科技。我在 2007 年加入同花顺,前期主要做服务端的架构研发,后期主要负责组建同花顺大数据团队和构建大数据平台。2013 年,我加入阿里数据平台事业部数据服务团队,构建了淘宝消费者信息工厂 TCF 和 ID-Mapping 体系,2015 年团队合并到阿里云,我开始负责数加平台的整体架构设计和落地。2016 年,我加入数澜科技担任 CTO ,负责公司整体产品技术。

非常荣幸跟各位 EGO 会员大神交流分享,希望抛砖引玉吸引更多大牛分享观点经验,也欢迎大家随时勾搭交流。

三个数据理念看待大数据

数澜科技大数据团队以阿里数据事业部的数据服务团队为核心,公司使命是帮助企业把数据用起来,通过我们能力的输出,让企业把数据变成资产,激活数据的价值。

我们在做数据资产的过程中逐步确立了自身的数据理念,主要包括三块:

  • 最强能力,连接—— 将各类数据进行内容上的连接,把看似不相关的数据连接起来;
  • 核心价值,场景化 —— 数据最终的使用,需要跟场景绑定才能发挥价值;
  • 极致魅力,不确定性—— 大数据很多时候解决的是非精准结果的问题。

公司现在的产品主要是分两块,一是数栖平台,帮助企业快速构建自己的数据中心、数据资产和数据服务,实现数据的快速增值;二是行业数据产品,比如地产的物业服务、Shopping Mall 的数据资产服务、新零售相关产品等。

大数据是一种思维模式,越用越有价值

除了可以经常看到的定义,我认为,大数据更多的是一种思维模式的转变,是从更全面的角度看待问题和解决问题。

为什么这么说?数据最核心的能力即数据的连接,就是把一些看似不相关的数据连接起来之后,在解决问题时,你就会有更多的视角去发现问题。

另一方面,大数据是越用越有价值的,数据最终和业务场景结合形成闭环,不断优化其效果。就像AlphaGo、无人驾驶汽车,刚开始会输棋或出事故,但是随着数据不断丰富和算法模型不断优化,它会变得越来越可靠。

这就是数据价值不断沉淀和不断优化业务的能力。

三种态度面对大数据

我们经常有客户觉得大数据是万能的,什么问题都能够通过大数据解决——这个认知是有问题的,有时候也会让大数据从业者比较痛苦。

举个例子:东北某度假村,通过数据分析精准划分了潜在客户,同时进行投放引流,最后却没有任何效果。原因是什么?因为到这个地区的航班只有一趟,客流量受到交通限制,所以一直做不起来。

大数据能够提供数据支撑,帮助发现问题和分析问题,但并不是能直接解决某些业务痛点,这要根据具体业务来看。最重要的是,大数据很多时候是辅助能力,不要以为它是万能的。

怎么对待大数据?我有三个比喻:

- 大数据像看书学习,不断积累才能让自己的知识更丰富,才能够发挥自己的知识能力。

- 大数据的能力像电,隐藏在背后支撑产品,而数据本身不是服务或产品。比如大家都知道今日头条的产品效果跟很多竞品是类似的,但是它背后的数据能力、算法能力是很难复制的,这就是数据服务的隐匿性。

- 大数据像显微镜,会发现更多的细节。比如在工业控制中,我们怎样确定某个参数变化和产品质量是密切相关的?你可能靠经验已经知道有十个参数对产品质量有影响,但是通过 IoT 数据采集,并通过机器学习算法分析,还会发现有其他几个因素并不在自己的经验范围,大数据能够通过数据说明更多问题,发现事物背后的细节。

什么原因导致坐着金山啃馒头

当前大数据应用的困惑,我觉得主要有两点,一是对数据认知不清晰,二是提不出数据应用场景的需求。

认知不清晰的问题很普遍,比如 WiFi 探针的数据,在手机开着 Wi-Fi 功能进入某个场所时,它会采集到手机的 MAC 地址、信号强度、进入时间等信息,但这些信息是业务人员理解不了的,我们把数据转换成业务可阅读易理解,比如某个设备背后的使用者是“家有小孩”、“电影爱好者”、“喜欢吃西餐”、“消费能力”等,业务人员看到这些数据后就可以结合自己的行业知识发挥出数据的价值。我们常说,作为数据技术人员,我们对业务的理解是不够的,真正理解业务的人,是行业专家和从业人员,我们需要做的是怎么把数据和业务的桥梁建起来,让行业专家能够理解数据背后的意义和价值,把大数据的能力用起来,价值发挥出来,这是我理解数据认知方面急需解决的问题。

同时,对大数据的场景需求也是不清晰的,大数据场景化应用最终能达到的效果如何,很多时候客户心里是没谱的——除非行业已经有现成的实践案例。我理解目前大数据还处于起步阶段,很多时候应用场景是需要不断探索、验证和优化。怎样让大家把数据快速用起来、快速形成数据价值验证的闭环?这也是当前大数据应用的关键点。

这两个问题造成了坐着金山啃馒头的现状。每个公司都有一座矿山,有很多有价值的数据,但是这些价值一直没有发挥出来,就是因为缺了那座桥。我们一位客户曾说过,他们的业务能力很强,团队抢了很多面粉回来,但最终没有把面粉变成面包而是坏掉了。数据资产化就是要把这些散落的数据,构建出真正能给企业生产经营带来增值的数据体系,支撑企业未来的发展。

企业大数据挖矿

前面说的问题是所有行业客户的困惑,我们希望把这么多年积累沉淀的大数据能力输出到各个行业,帮企业挖掘数据价值。我们把挖矿过程拆分为几个环节:

  • 要有一个好工具,能够把原始数据加工成金矿石。
  • 要有专业的冶炼技术,通过冶炼将矿石提炼成黄金,纯度要高。
  • 要有快速场景化的能力,把黄金加工成戒指、项链等产品,提高资产价值。

这样,数据就成为终端的高附加值产品。

数据挖矿工具

整个数据挖矿过程浓缩成三个字,就是存、通、用:把数据存储汇聚后,把数据进行连接打通, 然后结合业务场景把数据用起来。把它扩展成 16 个字方略就是:以用促通,以通带存,以存训算,以算利用。对于到工具,就是要解决数据汇聚、交换,数据开发、治理,数据应用、计量等问题。

数据汇聚、交换:是指如何快速将散落在各角落的数据汇聚到数据中心,需要解决以前信息化建设时异构数据源、异构网络等复杂的环境。

数据开发、治理:是指解决数据进行资产化构建的过程,他包括数据建模的能力、算法构建的能力以及数据治理中的生命周期、血缘追溯、生产基线、数据质量等。

数据应用、计量:是指数据如何快速的结合业务场景,快速的验证数据效果,并形成效果反馈,包括数据应用的价值计量。这些应用能力的沉淀是企业数据战略过程中最具价值的核心能力,以前靠经验的传承,未来把数据来说话。

数据冶炼技术

对于数据冶炼技术,我们沉淀了自己的构建数据资产方法论:构建完整的数据体系,要围绕人、物、场景这三点,以场景为驱动,将相关特性打到人和物上,形成特定场景下人和物的不同特性。

比如说某人点外卖总是在一两家店,而且点的菜品不变,这能说明他的可能是不愿尝试新事物的性格特征;而某人每次点餐基本都不同,喜欢尝试新鲜事物,这可能又反映出他喜欢尝试新事物的性格特征。针对不同的性格特征,在具体业务开展时,需要提供的服务也是不一样的。

通过这种数据体系构建,把人和物的属性构建起来,最终通过场景加上时空维度把人和物的数据连接起来,构建出全维度立体的数据资产体系,更全面地提升对事物和问题的认知和理解。

数据场景化应用

我们把场景化应用总结了四个字:研、定、行、优。

  1. 研:首先分析问题或对象的本质、背后的细节;如分析棋局的优劣势、分析人群的特征;
  2. 定:定策略、定人群,明确下一步的行动计划;圈定目标人群、设定下一步围棋落子的最优方案
  3. 行:行动;广告触达人群、围棋落子;
  4. 优:对结果进行优化、反馈;广告触达后的转换率优化业务闭环、围棋的胜负来优化下一次对战的策略;

数据越用越有价值,通过整个业务闭环不断完善优化,使业务的场景化应用效果越来越好,最终达到数据业务价值的最大化。每个企业的业务情况不同、数据情况不同,很多时候需要根据企业的特性去做不同的优化处理。

EGO 的期待

数据最大的能力是连接。同样的,加入 EGO 也是希望通过这样的社区,把技术领导者连接起来,相互学习、补自己短板、学别人长处,形成更丰富的知识体系,提升自己各方面的能力。

Q & A

1. 有哪些思路来找更多的外部特征来辅助预测?

首先要有一套基础的数据资产体系,或者叫标签体系。按我们的经验,从人、物、场景三个维度进行构建就可以考虑得比较全面,另外也需要更多对业务的理解、常识的理解,通过特定领域的研究对象,去了解背后的业务逻辑和本质,据此构建大的数据资产体系后,就可以更全面地训来找到更多的外部特征。

就构建数据标签体系来说,每个人的理解是不一样的,基于人、物、场景构建标签体系,在新构建时可能没办法 100% 满足业务需求,但随着业务闭环的形成,以及行业经验注入和不断优化,数据体系会越来越完善。

2. 大数据团队的投入比例多少才合适?

这需要根据公司的业务判断。比如 EGO 北京分会会员、易观 CTO 郭炜老师讲过,他们的数据量比较大,那么整个大数据团队的投入就会比较大。有些公司数据量并不大,或者数据业务并不多,那么投入不需要很多,还是要结合公司现状进行具体判断。

2017 年 12 月 28 日 17:121724

评论

发布
暂无评论
发现更多内容

OpenKruise:阿里巴巴 双11 全链路应用的云原生部署基座

阿里巴巴云原生

Kubernetes 运维 云原生 中间件 存储

前端如何实现一键截图功能?

徐小夕

Java 前端 React 前端训练 前端进阶

训练营第5周学习总结

爱码士

训练营

从资源管理角度认识K8S

LorraineLiu

Kubernetes 云原生 k8s k8s入门

大整数算法

落曦

linux开发各种I/O操作简析,以及select、poll、epoll机制的对比

良知犹存

linux开发

anyRTC uni-app 跨平台SDK 发布!总有一款适合你!

anyRTC开发者

uni-app 音视频 WebRTC RTC

架构设计:高并发读取,高并发写入,并发设计规划落地方案思考

互联网应用架构

高并发读,高并发写

怎么做好一场分享或者培训

fq

新思科技:ISO/SAE 21434标准即将发布 你准备好了吗?

InfoQ_434670063458

新思科技 汽车软件安全

《华为数据之道》读书笔记:序言

方志

数据中台 数字化转型 数据治理

贞炸了!上线之后,消息收不到了!

楼下小黑哥

Java RocketMQ MQ

DocView 现在支持自定义 Markdown 模版了!

程序员小航

markdown IDEA idea插件 文档生成

甲方日常 55

句子

工作 随笔杂谈 日常

2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声

京东智联云开发者

程序人生

探秘RocketMQ源码【1】——Producer视角看事务消息

阿里云金融线TAM SRE专家服务团队

开源 RocketMQ 中间件 开源代码 消息中间件

重点人员管控系统开发,情报研判系统搭建

t13823115967

重点人员管控系统开发 情报研判系统搭建

2020年10月公有云性能评测:盛大云-华东蝉联冠军,腾讯云-北京无缘前三

BonreeAPM

云计算 腾讯云 ucloud 公有云 评测

区块链商品溯源系统开发,数据上链应用落地方案

WX13823153201

区块链司法可信存证,版权维护应用落地

t13823115967

区块链司法可信存证 版权维护应用落地

MySQL选错索引导致的线上慢查询事故

Zhendong

Java MySQL

贼好用,冰河开源了这款精准定时任务和延时队列框架!!

冰河

redis 中间件 消息队列 延时队列 Zset

架构师训练营第 1 期第 10 周作业

业哥

聊聊在国企当程序员的这三年,这样的生活真的是你想要的吗?

Java架构师迁哥

Java踩坑记系列之线程池

Java老k

Java 线程池

《华为数据之道》读书笔记:第1章 数据驱动的企业数字化转型

方志

数据中台 数据湖 数据治理

年轻人你不讲武德,自己偷着学习!spring Security五套「源码级」笔记哪里来的?我也要!

Java架构追梦

Java 源码 架构 面试 spring security

基于ELK的日志平台介绍

Rayzh

ELK 日志系统

JVM Metaspace内存溢出排查与总结

Java老k

Java OOM 内存溢出 metaspace

OAuth 2.0授权框架详解

程序那些事

OAuth 2.0 程序那些事 Oauth 授权框架 安全框架

训练营第五周作业

爱码士

训练营

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

杭州数澜联合创始人 & CTO 江敏:大数据思维和大数据冶炼 —— 拒绝坐着金山吃馒头-InfoQ