写点什么

百度机器学习课程 (四):跨上大数据的战车

  • 2019-10-02
  • 本文字数:4242 字

    阅读完需:约 14 分钟

百度机器学习课程 (四):跨上大数据的战车

数据量和数据内涵的增长曲线


首先,这是我们近些年观察到的,不光是互联网,整个中国的各个行业都在发生的一个事情:我们的数据量和数据的内涵在进行一个非曲线的快速增长。这里,我首先说一下数据量的非线性增长,随着收集手段不断的先进化,随着日常工作和生活不断的 it 化、移动化,我们能够收集到的数据肯定是一个非线性增长的。但是,什么叫做信息的内涵非线性增长,它指的是如果有两个不同类型的数据,我们把这两个类型的数据结合在一起,它们产生的价值是 1+1>2 的。比如,一个人从他早上开始起来,可能就开始登陆一个论坛浏览新闻,之后可能会对去哪度假感兴趣,所以搜索了很多度假相关的事情,白天上班,他可能又搜索了很多跟他工作相关的一些问题,最后晚上回家,他可能又去网上购物,或者把之前看好的一些要出行的行程定下来,在整个白天上下班使用交通工具的时候,他又通过地图留下了很多位置移动的数据。如果我们把这位普通人一天生活的方方面面的数据都集合在一起,会发现我们对一个人的了解要深刻的非常多。这也就是说我们每一个数据如果是 1 的话,我们把所有这些 1 加起来,其实要大于它们本身单独刻画之和的。这就是说即使我们数据量是线性增长的,我们如果有这种累加项的话,我们整个信息的内涵也是在非线性增长的,更别提数据量本身也在非线性的增长。

为何要跨上大数据的战车?

1. 攻:促进业务发展


接下来考虑下,作为一个业务的负责人,为什么我们今天说一定要跨上大数据的战车呢?可以从功和守两方面进行总结。首先我们先从攻的角度进行总结,攻的角度是可以促进业务发展。


假设有这样一个业务,提供给用户的价值是基于数据和数据技术进行搭建的,它的价值与数据量是息息相关的。假设数据量出现一个非线性的爆发式增长,那么,业务价值或者提供给用户的价值,以及业务的商业价值,是不是也可以出现非线性的爆发式增长?也就是说如果我们的业务是基于数据和数据技术来进行优化的,那我就会骑上这样一个数据增长曲线,使我的业务价值出现一个突飞猛进的增长。这样的思路,有点类似于“大鹏一日同风起,扶摇直上九万里”。所以,大家想跨上大数据战车,从攻的角度来说,是期望业务的发展可以跟数据量的增长绑定起来,随着数据量的增长,会使业务发展的越来越好,业务价值越来越高。

2. 守:核心竞争力


守的角度:数据和数据技术所做的价值,是企业的核心竞争力。如果大家有一些创业的经历或者经常跟投资人交流,就会发现从投资人非常关注创业者在商业上成功的可能性。


因为对于大多数的投资人最核心的事情是投资回报率,只有创业者最后成功了,他们才能拿到投资的回报。在和投资者交流的过程中,你会发现,如果一个创业项目是通过技术来创业的,投资者通常会问两个问题:


第一个问题是这项技术所做出来的产品究竟满足了用户的什么需求?我们知道,一项技术只有满足需求才可能有市场价值,如果我的技术对改善人类的生活没有任何的意义是非常难被商业化的。


第二个问题是如何控制这项产品和技术的供给。经常会有这样的一个误解,就是我的产品只要满足市场需求,肯定能在商业上活得很好,这其实是完全错误的观念。假如现在有三种商品,第一种是空气,第二种是水,第三种是房子。人们对哪种产品的需求是更迫切的,或者是更大的。很明显,人类最需求是空气,其次是水,再其次才是房子。但从市场价格上讲,这三个的价格完全是反过来的,房子是最贵的,水是比较便宜的,空气是不要钱的。实际上,这就是供给在起作用。如果有项技术能够满足市场上大部分的需求,同时又能控制住供给,只有我能做而别人都做不了,可以想象,这项生意会在市场上创造巨大的利润空间。这就是投资人最关注这两个问题的原因。


为什么今天很多企业都在强调,一定要持续的技术创新,从市场和经济的角度理解,创新就是追求垄断,垄断就是追求利润。但是技术创新只是一个领先的时间窗口,还需要进一步的持续发展才能使其更加稳固。大家可以看下上面这幅图,通常一个企业的发展模式是这样的,首先有一项技术,这项技术是非常领先的,导致产品领先,更受用户的欢迎。由于有很多用户使用这个产品,使用的过程中会产生很多的使用数据,通过对这些数据的积累就变的领先,可以进一步促进产品体验的领先,这就进入了一个非常好的正向循环。这样的正向循环,可以更安全的保证这款产品在更长的时间里保持领先。今天大家都知道没有任何技术是黑科技,当年福特很便宜的价格生产出福特汽车的时候,大家认为这是黑科技,但是今天没有任何一个认为生产汽车还是黑科技。今天,对于机器学习技术、人工智能技术也是这样,没有任何技术会黑科技到永远,都会有一个时间窗口,我们要做的就是在这个时间窗口内,尽快把这项技术转化成产品的领先,让产品领先沉淀成数据的领先,最后通过数据领先和产品领先这样的一个不断循环的正向的循环,来使得我们在市场上取得一个垄断的地位。


以搜索引擎为例,搜“万年小学生”,只有关注动画的人才知道,这实际上是指柯南,但是搜索引擎识别出来了,找出来大量的结果都是柯南,关于柯南的说明、电视、影视资料等。为什么爱搜索引擎会知道“万年小学生”就是柯南?实际上,这是通过大量的用户投票数据造成的。比如,当有一个用户搜“万年小学生”,他会点击很多标题,这个标题可能就含有柯南的字样。同时,也有一些用户会搜索“柯南”,但是他们会点击一些含有“万年小学生”的文档或网页结果。通过大量的用户点击和投票的数据,我们就知道,对于大部分用户来说,“万年小学生”跟“柯南”是一个意思。这就是搜索引擎基于数据,对用户需求有一个更深、更好、更全面的掌握。一旦进入这样的一个循环,很多搜索竞品是很难打打败他的,比如搜索引擎 A 和 B 在技术层面基本相同,但是 A 积累了大量的数据,我们就会发现 A 的搜索效果要比 B 好很多,尤其在那些相对长尾的搜索关键词上,就是数据领先和产品领先交织成的一个非常好的良性的正向循环。


我们永远不要指望靠技术保持领先,因为没有任何技术是永远的黑科技。


谈了攻守两方面的考虑,接下来可能要跟大家去泼一些冷水。今天我们想把整个机器学习和大数据技术应用在我们的具体业务中,这件事情往往不是一个技术的事情,而是需要我们从业务模型,数据需求多方面来形成一个完整的链条,才能够实现的一件事情:

3. 大数据的应用场景及产业链条

大数据的常见应用场景


① 个性化匹配:在长尾经济与共享经济下的全新业务模式


信息、商品、服务、资源的个性化匹配,如:搜索,新闻 APP,电商,找工作/对象,打车 APP,信贷等。


② 代替人工:业务中的人工环节,引入智能模型,提升效率


基于大数据的智能学习,替代机械性的人工服务,如:机器翻译,人脸检测的安保系统,电商的自动客服,无人车等。


大数据不仅仅是数据技术,还需要完整的产业链


  • 数据 -> 模型 -> 业务 -> 需求


只有这些链条能够全部串联起来的时候,才能说我们真正利用了大数据技术解决了我们的业务问题。以买鞋的案例来说,首先我们需要有很多顾客购买各种各样鞋子的数据,然后建立一个个性化推荐的模型,而我们的业务是鞋厂可以根据用户个性化的需求,来规模化的生产各种各样的鞋子,最后的需求,我们需要确认顾客个性化的喜好和风格。只有数据、模型、业务和需求,这四方面全部 OK 的时候,才能真正的建立一个完整的基于数据技术的产业链条,而不仅仅是招来几个做机器学习的人,搞一些机器学习的技术,却没有对用户需求和业务进行深刻认知。

4. 个性化匹配及代替人工的应用思考


个性化匹配的应用思考


① 餐饮:叫个鸭子,业务偏线下,可以用数据分析来改善业务,如业务的覆盖区域,送货网点的选择。


② 教育:培育 100,业务线上线下都有,除了提供家长和学校沟通的基础功能外,还可以附加个性化服务,如针对每个孩子,为家长提供个性化教育的建议。


③ 导购:半糖 APP,业务完全基于线上,完整应用大数据技术构建推荐系统,为用户提供个性化的商品。


通过这三个案例,我们需要反思下,为什么互联网会成为大数据技术的乐园呢?这里存在两个前提:


① 个性化的数据收集,能够很方便的拿到用户数据。


② 个性化策略的执行,能够很方便的进行个性化的执行。


这两个前提在线上都很容易去完成,不用像线下企业那样,如果要个性化的执行每一个事情的话,就需要投入大量的人工,线上是完全可以靠机器去搞定的。所以这就是互联网成为大数据技术乐园的一个主要的原因。


替代人工的应用思考


以 AlphaGo 为例,AlphaGo 赢了人类的围棋世界冠军,在近几年,形成一个非常大的轰动,很多普通人都关心是不是人工智能马上就要战胜人类了,我们有一天要被人工智能取代了。这里要跟大家说的是 AlphaGo 除了能下围棋什么都干不了,比如点外卖,做作业,这些 AlphaGo 都是做不了的。另外,在一些纯粹的数学计算上,机器几十年前就已经超越人类了,为什么当时没有人认为机器马上就要超越人类呢?并不是说 AlphaGo 这个项目的意义不够重大,但是 AlphaGo 完全没有必要引起大家对人工智能马上就要干掉人类这种不太现实的猜想。那么通过 AlphaGo 可以发现目前机器擅长的事情,首先 AlphaGo 有如下特点:


① 围棋的规则是一个死规则,不像人类世界这样复杂多变。


② 单一场景,除了围棋之外,不能点外卖和陪你看 NBA。


③ AlphaGo 有一个非常取巧的地方,就是原始的训练数据。AlphaGo 通过机器跟机器下棋的方式,来得到大量的下棋的数据,这些下棋的数据为 AlphaGo 的训练提供了海量的数据集,这对于人类来说是做不到海量数据集的训练的。


通过这样的案例总结,我们就会发现,机器和人类擅长的东西不太一样,机器擅长的是单一的场景,同类型的,海量数据的问题,人类擅长的是关联场景,通过不同类型的少量数据进行联想抽象。基于这样的分析,我们可以判断下哪些场景会被机器取代人工,这里分享一个判断规则,叫做三秒钟准则:


大家可以这样思考下,我们正在做的工作是不是 3s 内可以解决的?比如开车,人类可能在下意识 1~2s 内就进行决策了。再比如翻译一句话,可能也是 1~2s 就翻译出来了。但是有一些深入的思考,显然不是 3s 内能够解决的,比如怎么样系统化来解决某些系统性任务,这往往需要人类几十天甚至上百天对这个任务的不断思考、创新,这样的一些工作,大家完全没有必要担心会被机器所替代。


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247493670&idx=2&sn=73ad143883506f33d603bdd44be859f0&chksm=fbd75a4acca0d35cd291c216a289981d595b28ab0c628bfad251ae386c68b634673d376989f2&scene=27#wechat_redirect


2019-10-02 08:001486

评论

发布
暂无评论
发现更多内容

手势识别技术及其应用

来自四九城儿

C语言编程—命令行参数

梦笔生花

C语言 命令行参数解析 6 月 优质更文活动

联盟送福利:云上掘金,开启你收入的第二增长曲线

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜

Spring Security6 全新写法,大变样!

江南一点雨

Java springboot springsecurity

加速44%!RT-DETR量化无损压缩优秀实战

飞桨PaddlePaddle

人工智能 百度 paddle

WMS 库存系统设计

红袖添香

系统设计 供应链物流 WMS系统 库存系统

喜报|瑞云科技荣获“年度汽车数字化营销供应商”奖

3DCAT实时渲染

云仿真 汽车三维可视化 汽车虚拟仿真

软件测试|抓包工具Charles--出现unknown怎么解决?

霍格沃兹测试开发学社

建设数字工厂:生产物料齐套检查的实现方法

华为云开发者联盟

华为云 华为云开发者联盟 企业号 6 月 PK 榜

MegEngine 使用小技巧:如何做 MegCC 的模型性能评测

MegEngineBot

深度学习 开源 性能测试 编译器 MegEngine

用Optaplanner实现云资源优化:建模详解

PeterOne

算法 后端 运筹优化 6 月 优质更文活动

Seata Saga 模式快速入门和最佳实践

SOFAStack

分布式 云原生 开发 seata Seata框架

Generative AI 新世界:文本生成领域论文解读

亚马逊云科技 (Amazon Web Services)

机器学习

Web 富文本编辑器之 Android 输入兼容

爱吃小舅的鱼

Web 富文本编辑器 Android 输入兼容

手势识别技术的挑战和未来发展

来自四九城儿

智达方通EPM 发布5.0版本,持续赋能企业数智化管理

智达方通

EPM 智达方通 全面预算管理 智达方通EPM 企业绩效管理系统

精打细算:OptaPlanner如何帮助您找到最佳优惠券组合

PeterOne

算法 运筹优化 6 月 优质更文活动

JS中, Set为什么是带键的集合?

林十二XII

前端

ubuntu服务器安装图形化界面总结

Studying_swz

6 月 优质更文活动

Nautilus Chain测试网迎阶段性里程碑,模块化区块链拉开新序幕

BlockChain先知

风口上的AIGC,技术岗动不动年薪百万,甚至重金难求?

引迈信息

人工智能 低代码 AIGC ChatGPT

华为手环、耳机等礼品!等你拿~快来参与CodeArtsBuild实践体验!

华为云PaaS服务小智

云计算 华为 华为云

GitHub 2800颗星,支持GPT/Transformer,字节跳动这个开源项目是怎么来的?

字节跳动技术范儿

机器学习 nlp

海纳 “千川”:得物多场景统一推荐平台

得物技术

架构模块2作业

sandywrh

2023-06-14:我们从二叉树的根节点 root 开始进行深度优先搜索。 在遍历中的每个节点处,我们输出 D 条短划线(其中 D 是该节点的深度) 然后输出该节点的值。(如果节点的深度为 D,则其

福大大架构师每日一题

Go 算法 rust 福大大架构师每日一题

Acrobat Pro DC 2023 for Mac(PDF编辑器) 中文最新

背包客

macos Mac软件 pdf编辑工具 Acrobat DC 2023 Acrobat DC

ByteHouse+Apache Airflow:高效简化数据管理流程

字节跳动数据平台

airflow 数据管理 bytehouse

生产环境可用的 Seata-go 1.2.0 来啦!!!

SOFAStack

Java seata 版本发布 Seata框架 Seata-go

当 GraphQL 遇上图数据库,便有了更方便查询数据的方式

NebulaGraph

图数据库 graphql

百度机器学习课程 (四):跨上大数据的战车_AI&大模型_DataFunTalk_InfoQ精选文章