写点什么

高亮谈大数据存储、分析、产品化

  • 2014-09-10
  • 本文字数:1839 字

    阅读完需:约 6 分钟

在最近举行的百度世界 2014 大会大数据论坛上,百度大数据部研发副总监高亮分享了百度在大数据存储、处理和产品化方面的最新成果。

在今年 4 月份百度发布了开放大数据引擎战略,高亮指出,虽然大数据概念炒的非常火,但是大数据内部运作的逻辑和传统行业是比较类似的。

如果传统行业做实业的话,首先要有地基,你要有厂房,要有原材料,然后做加工,接下来设计成独立的产品,给客户带来独特的体验。开放云就是大数据的地基和厂房,原材料就是在线上和线下产生的海量数据。现在百度目前每天数据规模,2013 年是 25PB,这个数字在快速的变化,我们现在处理的能力已经提高一倍,数据上目前是 50PB,增长了一倍,这个就是我们目前大数据库要处理的数据的原材料。

大数据处理能力分为几个层次,首先是数据存储,然后是智能分析,然后是做出产品。在几年之前,百度的数据存储在每个产品线都有自己的方式。后来用了两年的时间构建了现在的数据存储方式,首先解决了数据的传输,现在百度很多产品线要实时产生大量海量的数据,这些数据都需要被实时的储存一个地方。但是这些产品线的数据格式都是异构的。大数据部门做了非常多的标准化的工作,在基础上形成了第一个海量数据储存的产品,叫通用的数据仓库。总结起来,一是构建了实时的海量数据的传输平台,任何一个产品线产生的数据都能够实时的传送到这个数据仓库里面。二是做了实时的数据标准化的工作,无论你的数据是什么样的格式,到数据仓库里面都以同样的格式来储存。

有了这个物流,有了这个标准化,我们能够在这个基础上对数据进行更多的分析和加工。

高亮指出,整个数据的流程是全自动化的,从数据的生成、数据的传输、数据的标准化,到最后数据的归类、数据的分析,都是全自动化的。

这个产品(Query Engine)是一套标准的海量数据储存方案,无论你的数据是什么样的,经过处理会把它做成数据标准化,当数据实时生成,有非常好的数据传输框架,保证你的数据上传到百度的开放云,在上面进行建模,进行各种各样可视化分析和决策的过程。我们已经成功了上传分析一家合作企业将近 10T 的关于新能源方面的一些数据。

在数据被结构化存储以后,接下来是在这个基础上进行各种各样的智能化分析。就像传统行业有自己的产品设计中心一样,会对产品进行各种各样的分析、排列组合,做各种各样的实验。在这个实验的基础上能够产生出比较好的产品,能够满足用户的需求。大数据部门也有这样的需求,也需要有大数据产品的设计中心,在这个设计中心需要做很多实验,做出适用于百度,适用于客户的数据产品。

我们大数据新产品的设计中心,可以进行很多实时的智能分析,做很多的实验,对产品进行很多排列组合,看哪一种产品能够最适合行业,满足百度的需求。

对于大数据产品,高亮列举了几个上线的实例,包括百度司南、预测、推荐等。其中百度司南门专门针对发展到一定阶段、有了一定的品牌影响力的企业,能够让企业对自身的品牌有更客观的了解,主要体现在三个方面:

  • 品牌分析,了解你的品牌在同行业中的地位如何,周边的人如何看待你的品牌,口碑如何,这种分析几乎是实时的。
  • 用户关注点,比较忠实的用户除了关注你的品牌,他还关心什么别的,他还对什么样的东西感兴趣。
  • 渠道分析,用户通过什么渠道了解到你的品牌,这样以后做营销行为,就知道如何很快的影响到你的受众,什么样的渠道是最有效的。

那么百度司南有什么实际应用呢?高亮从代言人、舆情分析两个方面做了展示。

很多品牌到了后期推广的时候,都有找代言人的需求。什么样的代言人在你最想影响的受众是最有号召力的?之前可能是一些拍脑袋的决策,但是通过司南,通过海量的数据,通过海量的用户行为分析,可以帮助你做一个决策的科学。实际上我们已经通过大数据的分析,可以产生出超过一千家的企业,它们最合适的代言人到底是哪一位。

另外一个是舆情分析,实际是跟品牌的口碑最像。企业里有一系列的产品,每一个产品可能有轻微的差异化,就像我化妆品一样,每一款产品在用户中的口碑到底怎么样,用户喜欢这些产品什么样的功能,不喜欢这些产品什么样的功能。在之前,很多公司通过调研公司到各个城市,通过实时的访谈获得一些统计数据。整个过程要耗费一个月左右。通过舆情分析,几乎可以实时告诉你这个答案,到底有多少用户是喜欢这个功能,有多少用户不喜欢这个功能。一个月和实时的差距,就是百度大数据能给传统行业带来的竞争力。

最后,高亮表示,目前的产品只是揭开了冰山一角,在大数据这个方面,产品设计的想象力其实是很多很多的,后面会陆续推出一系列的大数据产品。

2014-09-10 01:401809
用户头像

发布了 501 篇内容, 共 267.0 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

如何在 KubeBlocks 中配置实例模板?

小猿姐

数据库 Kubernetes 云原生

百度智能云计算系列产品通过电子标准院算力服务成熟度增强级评估

Baidu AICLOUD

Match:重塑社交金融格局,打造财富增长新引擎

BlockChain先知

AI作文导师、一键搜索答疑、1秒生成手抄报,百度搜索推出开学季AI大礼包

极客天地

如何通过观测云实现AIOps突破?

观测云

AIOPS 智能运维

在孩子成长路上,爱与智慧的陪伴是送给孩子最好的礼物

心大陆多智能体

AI大模型 心理健康 数字心理

通过 API 集成优化货币兑换

幂简集成

API 货币兑换API

Bonree ONE 3.0:全域可观测 运维新境界

博睿数据

如何解决跨国视频会议卡顿问题

Ogcloud

网络加速 海外网络加速 网络加速服务 视频会议加速

四旋翼无人机到底是如何平稳飞行的?巧用空气动力学仿真

Altair RapidMiner

人工智能 无人机 仿真 altair 设计仿真

豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!

我再BUG界嘎嘎乱杀

Python 编程 数据分析 后端 pandas

【AI 冰封挑战】搭档函数计算,“冰”封你的夏日记忆

阿里巴巴云原生

阿里云 Serverless 云原生

为什么要使用TikTok云手机

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

MySQL主从同步如何保证数据一致性?

王磊

Java

编程“奥斯卡”落幕,百度之星决赛中学生疯狂收割大奖!

herosunly

讯飞星火极速超拟人交互技术:语音端到端,8 月底开放;昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

声网

机器人测试自动化智能化交流沙龙 —— 免费参与,线上线下同步进行,探索未来科技新篇章!

霍格沃兹测试开发学社

解锁RFG空投:撸毛党看过来,轻松获利的机会来了!

石头财经

机器人测试自动化智能化交流沙龙 —— 免费参与,线上线下同步进行,探索未来科技新篇章!

测吧(北京)科技有限公司

测试

华为云构建边缘云平台,畅享AI数字时代新体验

最新动态

云上集成时序数据库 IoTDB,海量储能数据实现高效处理与实时分析

Apache IoTDB

利用多Lora节省大模型部署成本|得物技术

得物技术

LoRa 大模型 企业号2024年8月PK榜

深入浅出python的lambda表达式

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言 Lambda表达式

第64期 | GPTSecurity周报

云起无垠

iPaaS丨API低代码平台适用的业务场景

RestCloud

API 低代码平台 ipaas

使用对比!SLS 数据加工 SPL 与旧版 DSL 场景对照

阿里巴巴云原生

阿里云 云原生 sls

RFG引领Meme新趋势——为何现在仍是投资好时机?

股市老人

报告称2024年上半年DDoS攻击数量激增,同比增长46%

网络安全服务

游戏 金融 电商 DDoS DDoS 攻击

高亮谈大数据存储、分析、产品化_百度_崔康_InfoQ精选文章