写点什么

百度技术沙龙第 53 期回顾:基于大数据的预测技术(含资料下载)

  • 2014-08-19
  • 本文字数:2233 字

    阅读完需:约 7 分钟

2014 年 8 月 16 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 53 期百度技术沙龙活动上,来自百度研究院大数据实验室数据科学家沈志勇,和中国科学院大学管理学院讲师刘颖,分享了他们在大数据领域的实战经验。

本次分享的话题分别是“ 大数据与预测”和“ 基于互联网数据的社会经济预测”。本文将对这两个主题分享做下简单的回顾,同时提供相关资料的下载。

主题一:大数据与预测(下载讲稿

百度的沈志勇首先提到了自己对大数据时代的理解,他认为这其实是机遇与挑战并存的时代,大数据使整个社会都有了数据意识。大家都知道怎么样采集和记录,把数据都写下来或者是记通过各种各样的方式记下来,以前没有这个意识。这样其实对于机器学习来讲,才能有更加广阔的数据源,对于算法来讲也可以有更多的数据。数据多了以后,多元数据往往存在分布的问题,这样会带来很多问题,我们要解决这种问题往往需要采用一种复杂的模型,这样可以应对下面列出来的问题。这样形成一个时势造英雄的态势。

沈志勇提到:“我们是用机器学习的方法做预测,这里我大概讲一下人的预测和机器的预测大概是什么样的。首先我们看一个正常的人,它是根据自己的经验或者是精力出发归纳一下,这个事情怎么办,根据预测的归纳去推测将来,它是这样的。还有一个比较直接的方法,我直接看别人怎么做,我一个老农民可能知道天气怎么样,但是年轻人不知道,我去看天气预报。人的特点,就是大脑非常神奇,它有很强的识别和推理能力。比如说人工智能很多事情都在说能达到几岁小孩的智商,而且人是one Pass 你没法回去,人会受到主观的干扰。机器学习其实也有一些方法直接利用别的算法或者是结果,它往往是模型的融合或者是模型结果的融合。

接下来沈志勇以百度预测里面的旅游为例,引入温总理参观百度的故事。介绍了时序类预测的方法。沈志勇提到:“时序性最重要的就是历史信息,以前这条线是怎么做的,对现在有没有参考。有时候你会发现特别没有规律,别的东西在影响它,会形成很多变量。在解释变量的时候会形成非常独特的预测。”“还有一种是事件类的预测”沈志勇用足球比赛作为例子,让大家更明确这种预测的方法。“你要预测它的胜负,最关心这个的人是博彩公司和赌球的人,所以这是一种做法。第二种做法是我们没有精力去做,我们做这件事情只是玩票,刚才说了在预测的时候还可以看别人的结果。其实这个市场是非常有意思的,它跟赌博很像,但是又不是赌博,第三钟做法是比较传统的问卷调查,这样同样能分析出预测的效果。”

最后总结一下,沈志勇谈到:“我们在做的过程中,会根据需求找信息,根据这个信息建模,这其实是见招拆招的过程。现在预测只是我们的入手点,我们整个做的是这样一个智能系统,可能包括了前面的监控、异常检测,诊断以后我们还要做自动调整,会用到各种场合,比如说运维和运营等等这样一些地方。”

主题二:基于互联网数据的社会经济预测(下载讲稿

中科院的刘颖老师把大数据在企业中的应用(或者是在经济中的应用)分为三个层次,分别是宏观、微观和中观,从这三个方面做了一些研究实例,分享给大家。

1、微观层面

主要是在企业的层面做的比较多。企业应用最多的就是运营和营销,可以给企业的运营带来一些借鉴和促进作用。在营销方面有一些个性化、针对性的营销。亚马逊可能在国外做电商用户行为做的非常好的公司,亚马逊商品的定价采用的是及时的扫描所有竞争对手商品的定价,它采用的不是最低定价法,而是倒数第二的定价法。

2、中观层面

这个涉及到行业的预测,刘颖首先分享了一个案例:电商交易背后的用户行为规律。刘颖认为这实际上是对电子商务的日志分析的结果。“我们都听过啤酒和尿布的例子,我们也还想知道关联推荐交易结果背后,用户走过的哪些脚步,用户的过程有没有一些规律,这个可能对网站的运营人员也是特别重要的,这个结果我们也是从问题出发。如果从店铺的运营角度,我们希望知道用户走过的这些路径的规律,如果是从营销的角度,我们希望把用户进行分层和细分,每个层级的用户它的特点是什么,我们希望用什么方法给它做营销效果更好,这是两个思路。”

3、宏观层面

在宏观层面,我们国家现在比较关心的是经济增长、促消费,以及领导人经常提到的要知道中小企业的经营状况,我们做了中小企业的精气指数。先分析国家的宏观形势,再分析我们行业的形势,对公司的经营和各个方面的基本面的分析来决定这个公司的股票是不是值得购买。

最后刘颖老师总结到,“我们这些研究可能更多的是关心企业的实际问题,从问题出发来找数据,我们其实不是特别关心数据的量大还是量小,只要你用我们认为就是好数据,实际上真实到用的往往是小数据,对企业的决策直接产生价值。”

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,两位话题小组长分别对讨论的内容进行了总结。​​​

沈志勇:我们在做的过程中发现:图模型有非常强的表达能力和信息压缩能力,你的数据量太大,耗费的时间也会太长,所以要在有限的时间内做大量的数据是比较累的。

刘颖:我们一定要以企业的实际问题出发,做数据分析不一定要盲目追求数据量大,不管是大数据、小数据,能够解决问题的数据就是好数据。

@滕毅 大数据是行业趋势,期待老师带来的酱菜讲解;

@winsh 有什么好的大数据分析模型么,比如豆瓣面向用户的图书电影推荐?

@ 夏粉 _ 百度:百度大数据实验室沈志勇老师为大家揭开世界杯神预测之谜!

2014-08-19 06:302064
用户头像
Kitty 极客邦科技会议主编

发布了 40 篇内容, 共 24.3 次阅读, 收获喜欢 54 次。

关注

评论

发布
暂无评论
发现更多内容

Java 中的 null 到底是什么?

Java架构历程

Java 三周年连更

2023 年要避免的 17 个致命的网站设计错误

海拥(haiyong.site)

三周年连更

挑战 30 天学完 Python:Day13 列表推导式和Lambda

MegaQi

挑战30天学完Python 三周年连更

Git 速查表:初学者必备的 12 个 Git 命令

Se7en

【Python实战】Python采集图书信息

BROKEN

三周年连更

Spring Boot之根据数据库连接信息指定分页查询表结构信息

bug菌

Spring Boot 2 spring-boot 三周年连更

【Linux】之Jumpserver堡垒机的部署_搭建

A-刘晨阳

Linux 跳板机 三周年连更

2023移动端技术探索

轻口味

android 移动端 行业趋势 三周年连更

干货|SpringBoot JMS(ActiveMQ)API实践应用详解

浅羽技术

Apache 中间件 ​ActiveMQ 消息列队 三周年连更

一键生成rpc网关服务项目代码,让你轻松实现跨语言、跨平台的服务调用

vison

微服务 Go 语言 gin 代码自动生成 rpc gateway

iOS MachineLearning 系列(9)—— 人物蒙版图生成

珲少

Bitmap引起的OOM问题

芯动大师

App 三周年连更 Out Of Memory

《一文带你读懂:云原生时代业务监控》

后台技术汇

三周年连更

多维评测指标解读2022MSU世界编码器大赛结果

阿里云CloudImagine

云计算 编码 编码器 视频云 MSU

Go的内存模型:如何保证并发读写的顺序性?

Jack

如何在 Linux 中查看正在运行的进程?这三个命令轻松实现!

wljslmz

Linux 三周年连更

Selenium操作已经打开的浏览器

IT蜗壳-Tango

三周年连更

大数据集群的部署实例

TiAmo

大数据 集群 三周年连更 开发实例

《爱在黎明破晓前 | 我有话要说》

后台技术汇

三周年连更

华为阅读联手20余家头部内容平台,共建数字化阅读

最新动态

程序员失业:现实还是幻想?| 社区征文

断墨寻径

人工智能 三周年征文

sdn网络

乌龟哥哥

三周年连更

什么是软件开发领域的 disruptive innovation

汪子熙

软件工程 软件开发 三周年连更

从软件哲学角度谈 Amazon SageMaker

亚马逊云科技 (Amazon Web Services)

Amazon SageMaker

Qz学算法-数据结构篇(非线性结构、树)

浅辄

数据结构 三周年连更

在oracle apex中的Dialog的做法(第一部门):

back_wang

oracle dialog oracle ebs ebs

《详谈·张勇》

石云升

读书笔记 三周年连更

【直播回顾】3月银行APP用户体验评测+中国金融业财富管理AI应用分析

易观分析

金融 银行

深入理解vue2.x双向数据绑定原理

不叫猫先生

Vue vue响应式 三周年连更

ChatGPT-4!又双叒叕写了一本量化交易的书(附下载)

量化投资与机器学习

机器学习 量化投资 ChatGPT4 对冲基金 Quant

基于STM32+华为云设计的智慧烟感系统

DS小龙哥

三周年连更

百度技术沙龙第53期回顾:基于大数据的预测技术(含资料下载)_DevOps & 平台工程_Kitty_InfoQ精选文章