快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

百度技术沙龙第 53 期回顾:基于大数据的预测技术(含资料下载)

  • 2014-08-19
  • 本文字数:2233 字

    阅读完需:约 7 分钟

2014 年 8 月 16 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 53 期百度技术沙龙活动上,来自百度研究院大数据实验室数据科学家沈志勇,和中国科学院大学管理学院讲师刘颖,分享了他们在大数据领域的实战经验。

本次分享的话题分别是“ 大数据与预测”和“ 基于互联网数据的社会经济预测”。本文将对这两个主题分享做下简单的回顾,同时提供相关资料的下载。

主题一:大数据与预测(下载讲稿

百度的沈志勇首先提到了自己对大数据时代的理解,他认为这其实是机遇与挑战并存的时代,大数据使整个社会都有了数据意识。大家都知道怎么样采集和记录,把数据都写下来或者是记通过各种各样的方式记下来,以前没有这个意识。这样其实对于机器学习来讲,才能有更加广阔的数据源,对于算法来讲也可以有更多的数据。数据多了以后,多元数据往往存在分布的问题,这样会带来很多问题,我们要解决这种问题往往需要采用一种复杂的模型,这样可以应对下面列出来的问题。这样形成一个时势造英雄的态势。

沈志勇提到:“我们是用机器学习的方法做预测,这里我大概讲一下人的预测和机器的预测大概是什么样的。首先我们看一个正常的人,它是根据自己的经验或者是精力出发归纳一下,这个事情怎么办,根据预测的归纳去推测将来,它是这样的。还有一个比较直接的方法,我直接看别人怎么做,我一个老农民可能知道天气怎么样,但是年轻人不知道,我去看天气预报。人的特点,就是大脑非常神奇,它有很强的识别和推理能力。比如说人工智能很多事情都在说能达到几岁小孩的智商,而且人是one Pass 你没法回去,人会受到主观的干扰。机器学习其实也有一些方法直接利用别的算法或者是结果,它往往是模型的融合或者是模型结果的融合。

接下来沈志勇以百度预测里面的旅游为例,引入温总理参观百度的故事。介绍了时序类预测的方法。沈志勇提到:“时序性最重要的就是历史信息,以前这条线是怎么做的,对现在有没有参考。有时候你会发现特别没有规律,别的东西在影响它,会形成很多变量。在解释变量的时候会形成非常独特的预测。”“还有一种是事件类的预测”沈志勇用足球比赛作为例子,让大家更明确这种预测的方法。“你要预测它的胜负,最关心这个的人是博彩公司和赌球的人,所以这是一种做法。第二种做法是我们没有精力去做,我们做这件事情只是玩票,刚才说了在预测的时候还可以看别人的结果。其实这个市场是非常有意思的,它跟赌博很像,但是又不是赌博,第三钟做法是比较传统的问卷调查,这样同样能分析出预测的效果。”

最后总结一下,沈志勇谈到:“我们在做的过程中,会根据需求找信息,根据这个信息建模,这其实是见招拆招的过程。现在预测只是我们的入手点,我们整个做的是这样一个智能系统,可能包括了前面的监控、异常检测,诊断以后我们还要做自动调整,会用到各种场合,比如说运维和运营等等这样一些地方。”

主题二:基于互联网数据的社会经济预测(下载讲稿

中科院的刘颖老师把大数据在企业中的应用(或者是在经济中的应用)分为三个层次,分别是宏观、微观和中观,从这三个方面做了一些研究实例,分享给大家。

1、微观层面

主要是在企业的层面做的比较多。企业应用最多的就是运营和营销,可以给企业的运营带来一些借鉴和促进作用。在营销方面有一些个性化、针对性的营销。亚马逊可能在国外做电商用户行为做的非常好的公司,亚马逊商品的定价采用的是及时的扫描所有竞争对手商品的定价,它采用的不是最低定价法,而是倒数第二的定价法。

2、中观层面

这个涉及到行业的预测,刘颖首先分享了一个案例:电商交易背后的用户行为规律。刘颖认为这实际上是对电子商务的日志分析的结果。“我们都听过啤酒和尿布的例子,我们也还想知道关联推荐交易结果背后,用户走过的哪些脚步,用户的过程有没有一些规律,这个可能对网站的运营人员也是特别重要的,这个结果我们也是从问题出发。如果从店铺的运营角度,我们希望知道用户走过的这些路径的规律,如果是从营销的角度,我们希望把用户进行分层和细分,每个层级的用户它的特点是什么,我们希望用什么方法给它做营销效果更好,这是两个思路。”

3、宏观层面

在宏观层面,我们国家现在比较关心的是经济增长、促消费,以及领导人经常提到的要知道中小企业的经营状况,我们做了中小企业的精气指数。先分析国家的宏观形势,再分析我们行业的形势,对公司的经营和各个方面的基本面的分析来决定这个公司的股票是不是值得购买。

最后刘颖老师总结到,“我们这些研究可能更多的是关心企业的实际问题,从问题出发来找数据,我们其实不是特别关心数据的量大还是量小,只要你用我们认为就是好数据,实际上真实到用的往往是小数据,对企业的决策直接产生价值。”

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,两位话题小组长分别对讨论的内容进行了总结。​​​

沈志勇:我们在做的过程中发现:图模型有非常强的表达能力和信息压缩能力,你的数据量太大,耗费的时间也会太长,所以要在有限的时间内做大量的数据是比较累的。

刘颖:我们一定要以企业的实际问题出发,做数据分析不一定要盲目追求数据量大,不管是大数据、小数据,能够解决问题的数据就是好数据。

@滕毅 大数据是行业趋势,期待老师带来的酱菜讲解;

@winsh 有什么好的大数据分析模型么,比如豆瓣面向用户的图书电影推荐?

@ 夏粉 _ 百度:百度大数据实验室沈志勇老师为大家揭开世界杯神预测之谜!

2014-08-19 06:302024
用户头像
Kitty 极客邦科技会议主编

发布了 35 篇内容, 共 19.9 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

WAIC 2024,好city啊!

天翼云开发者社区

人工智能 世界人工智能大会 WAIC

Java程序员眼中的Rust系列 — 1.初见

Geek_zbvt62

Java rust

Sentieon | 应用教程:Sentieon分布模式

INSVAST

基因数据分析 生信服务 分布式数据存储模块 分布模式 Sentieon

CAD绘图软件Autodesk AutoCAD 2021 for Mac v2021.1.2中文激活版

Mac相关知识分享

软件测试学习笔记丨接口请求头

测试人

软件测试 接口测试 测试开发

MoneyPrinterPlus全面支持本地Ollama大模型

程序那些事

工具 程序那些事 AIGC

利用淘宝商品详情API接口,打造智能化电商数据分析平台

技术冰糖葫芦

API 安全 API 文档 API 开发 API 协议

腾讯云首发大数据高性能计算引擎Meson,支持三大产品线性能升级

腾讯云大数据

大数据

安全可信| 通过双项测试!TeleDB实力亮剑!

天翼云开发者社区

数据库 云计算 天翼云

Redis Desktop Manager for Mac(Redis可视化工具)v2020中文激活版

Mac相关知识分享

可视化工具 数据库设计软件

“文心•跨模态大模型”又有新动态,支持内容分析时输出自定义标签库

爱AI的猫猫头

音视频 低代码 大模型

Microsoft Remote Desktop for Mac(远程桌面连接工具) 10.9.5正式版

Mac相关知识分享

Mac远程控制软件

分页查询及其拓展应用案例

快乐非自愿限量之名

分页查询

企业如何利用小程序生态实现差异化?

Geek_2305a8

小智常见报表示例--层次坐标--同比报表

小智数据

OpenAI 曝新项目「草莓」,提升 AI 推理能力;智谱 AI 开源视频理解模型丨 RTE 开发者日报

声网

数据库管理软件Navicat Premium 15 for Mac

Mac相关知识分享

软件测试学习笔记丨接口自动化测试框架介绍

测试人

软件测试

上榜!天翼分布式云操作系统入选“科创中国”先导技术榜单!

天翼云开发者社区

云计算 分布式 云服务

SecureCRT Mac版:强大的SSH与远程连接工具

Mac相关知识分享

WAIC 2024盛大召开,天翼云以全栈智算能力赋能AI时代!

天翼云开发者社区

人工智能大会 人工智能生态论坛

性能测试:性能测试计划

霍格沃兹测试开发学社

开发者指南:挑选高效的缺陷管理工具

爱吃小舅的鱼

软件缺陷管理

Web3 游戏周报(7.07-7-13)

Footprint Analytics

链游

如何保护你的网络安全?

网络安全服务

TCP 服务器 DDoS waf DDoS 攻击

开发体育直播平台:高并发问题解决手段及架构设计思路

软件开发-梦幻运营部

软件测试学习笔记丨接口请求体-文件

测试人

软件测试

PDF专业制作与编辑软件Acrobat Pro DC 2021 for Mac v21.中文激活版

Mac相关知识分享

PDF 办公

Parallels Desktop 19一键激活版:强大的Mac虚拟机解决方案

Mac相关知识分享

Go语言设计模式:使用Option模式简化类的初始化

伤感汤姆布利柏

百度技术沙龙第53期回顾:基于大数据的预测技术(含资料下载)_DevOps & 平台工程_Kitty_InfoQ精选文章