写点什么

百度机器学习课程 (四):跨上大数据的战车

  • 2019-10-02
  • 本文字数:4242 字

    阅读完需:约 14 分钟

百度机器学习课程 (四):跨上大数据的战车

数据量和数据内涵的增长曲线


首先,这是我们近些年观察到的,不光是互联网,整个中国的各个行业都在发生的一个事情:我们的数据量和数据的内涵在进行一个非曲线的快速增长。这里,我首先说一下数据量的非线性增长,随着收集手段不断的先进化,随着日常工作和生活不断的 it 化、移动化,我们能够收集到的数据肯定是一个非线性增长的。但是,什么叫做信息的内涵非线性增长,它指的是如果有两个不同类型的数据,我们把这两个类型的数据结合在一起,它们产生的价值是 1+1>2 的。比如,一个人从他早上开始起来,可能就开始登陆一个论坛浏览新闻,之后可能会对去哪度假感兴趣,所以搜索了很多度假相关的事情,白天上班,他可能又搜索了很多跟他工作相关的一些问题,最后晚上回家,他可能又去网上购物,或者把之前看好的一些要出行的行程定下来,在整个白天上下班使用交通工具的时候,他又通过地图留下了很多位置移动的数据。如果我们把这位普通人一天生活的方方面面的数据都集合在一起,会发现我们对一个人的了解要深刻的非常多。这也就是说我们每一个数据如果是 1 的话,我们把所有这些 1 加起来,其实要大于它们本身单独刻画之和的。这就是说即使我们数据量是线性增长的,我们如果有这种累加项的话,我们整个信息的内涵也是在非线性增长的,更别提数据量本身也在非线性的增长。

为何要跨上大数据的战车?

1. 攻:促进业务发展


接下来考虑下,作为一个业务的负责人,为什么我们今天说一定要跨上大数据的战车呢?可以从功和守两方面进行总结。首先我们先从攻的角度进行总结,攻的角度是可以促进业务发展。


假设有这样一个业务,提供给用户的价值是基于数据和数据技术进行搭建的,它的价值与数据量是息息相关的。假设数据量出现一个非线性的爆发式增长,那么,业务价值或者提供给用户的价值,以及业务的商业价值,是不是也可以出现非线性的爆发式增长?也就是说如果我们的业务是基于数据和数据技术来进行优化的,那我就会骑上这样一个数据增长曲线,使我的业务价值出现一个突飞猛进的增长。这样的思路,有点类似于“大鹏一日同风起,扶摇直上九万里”。所以,大家想跨上大数据战车,从攻的角度来说,是期望业务的发展可以跟数据量的增长绑定起来,随着数据量的增长,会使业务发展的越来越好,业务价值越来越高。

2. 守:核心竞争力


守的角度:数据和数据技术所做的价值,是企业的核心竞争力。如果大家有一些创业的经历或者经常跟投资人交流,就会发现从投资人非常关注创业者在商业上成功的可能性。


因为对于大多数的投资人最核心的事情是投资回报率,只有创业者最后成功了,他们才能拿到投资的回报。在和投资者交流的过程中,你会发现,如果一个创业项目是通过技术来创业的,投资者通常会问两个问题:


第一个问题是这项技术所做出来的产品究竟满足了用户的什么需求?我们知道,一项技术只有满足需求才可能有市场价值,如果我的技术对改善人类的生活没有任何的意义是非常难被商业化的。


第二个问题是如何控制这项产品和技术的供给。经常会有这样的一个误解,就是我的产品只要满足市场需求,肯定能在商业上活得很好,这其实是完全错误的观念。假如现在有三种商品,第一种是空气,第二种是水,第三种是房子。人们对哪种产品的需求是更迫切的,或者是更大的。很明显,人类最需求是空气,其次是水,再其次才是房子。但从市场价格上讲,这三个的价格完全是反过来的,房子是最贵的,水是比较便宜的,空气是不要钱的。实际上,这就是供给在起作用。如果有项技术能够满足市场上大部分的需求,同时又能控制住供给,只有我能做而别人都做不了,可以想象,这项生意会在市场上创造巨大的利润空间。这就是投资人最关注这两个问题的原因。


为什么今天很多企业都在强调,一定要持续的技术创新,从市场和经济的角度理解,创新就是追求垄断,垄断就是追求利润。但是技术创新只是一个领先的时间窗口,还需要进一步的持续发展才能使其更加稳固。大家可以看下上面这幅图,通常一个企业的发展模式是这样的,首先有一项技术,这项技术是非常领先的,导致产品领先,更受用户的欢迎。由于有很多用户使用这个产品,使用的过程中会产生很多的使用数据,通过对这些数据的积累就变的领先,可以进一步促进产品体验的领先,这就进入了一个非常好的正向循环。这样的正向循环,可以更安全的保证这款产品在更长的时间里保持领先。今天大家都知道没有任何技术是黑科技,当年福特很便宜的价格生产出福特汽车的时候,大家认为这是黑科技,但是今天没有任何一个认为生产汽车还是黑科技。今天,对于机器学习技术、人工智能技术也是这样,没有任何技术会黑科技到永远,都会有一个时间窗口,我们要做的就是在这个时间窗口内,尽快把这项技术转化成产品的领先,让产品领先沉淀成数据的领先,最后通过数据领先和产品领先这样的一个不断循环的正向的循环,来使得我们在市场上取得一个垄断的地位。


以搜索引擎为例,搜“万年小学生”,只有关注动画的人才知道,这实际上是指柯南,但是搜索引擎识别出来了,找出来大量的结果都是柯南,关于柯南的说明、电视、影视资料等。为什么爱搜索引擎会知道“万年小学生”就是柯南?实际上,这是通过大量的用户投票数据造成的。比如,当有一个用户搜“万年小学生”,他会点击很多标题,这个标题可能就含有柯南的字样。同时,也有一些用户会搜索“柯南”,但是他们会点击一些含有“万年小学生”的文档或网页结果。通过大量的用户点击和投票的数据,我们就知道,对于大部分用户来说,“万年小学生”跟“柯南”是一个意思。这就是搜索引擎基于数据,对用户需求有一个更深、更好、更全面的掌握。一旦进入这样的一个循环,很多搜索竞品是很难打打败他的,比如搜索引擎 A 和 B 在技术层面基本相同,但是 A 积累了大量的数据,我们就会发现 A 的搜索效果要比 B 好很多,尤其在那些相对长尾的搜索关键词上,就是数据领先和产品领先交织成的一个非常好的良性的正向循环。


我们永远不要指望靠技术保持领先,因为没有任何技术是永远的黑科技。


谈了攻守两方面的考虑,接下来可能要跟大家去泼一些冷水。今天我们想把整个机器学习和大数据技术应用在我们的具体业务中,这件事情往往不是一个技术的事情,而是需要我们从业务模型,数据需求多方面来形成一个完整的链条,才能够实现的一件事情:

3. 大数据的应用场景及产业链条

大数据的常见应用场景


① 个性化匹配:在长尾经济与共享经济下的全新业务模式


信息、商品、服务、资源的个性化匹配,如:搜索,新闻 APP,电商,找工作/对象,打车 APP,信贷等。


② 代替人工:业务中的人工环节,引入智能模型,提升效率


基于大数据的智能学习,替代机械性的人工服务,如:机器翻译,人脸检测的安保系统,电商的自动客服,无人车等。


大数据不仅仅是数据技术,还需要完整的产业链


  • 数据 -> 模型 -> 业务 -> 需求


只有这些链条能够全部串联起来的时候,才能说我们真正利用了大数据技术解决了我们的业务问题。以买鞋的案例来说,首先我们需要有很多顾客购买各种各样鞋子的数据,然后建立一个个性化推荐的模型,而我们的业务是鞋厂可以根据用户个性化的需求,来规模化的生产各种各样的鞋子,最后的需求,我们需要确认顾客个性化的喜好和风格。只有数据、模型、业务和需求,这四方面全部 OK 的时候,才能真正的建立一个完整的基于数据技术的产业链条,而不仅仅是招来几个做机器学习的人,搞一些机器学习的技术,却没有对用户需求和业务进行深刻认知。

4. 个性化匹配及代替人工的应用思考


个性化匹配的应用思考


① 餐饮:叫个鸭子,业务偏线下,可以用数据分析来改善业务,如业务的覆盖区域,送货网点的选择。


② 教育:培育 100,业务线上线下都有,除了提供家长和学校沟通的基础功能外,还可以附加个性化服务,如针对每个孩子,为家长提供个性化教育的建议。


③ 导购:半糖 APP,业务完全基于线上,完整应用大数据技术构建推荐系统,为用户提供个性化的商品。


通过这三个案例,我们需要反思下,为什么互联网会成为大数据技术的乐园呢?这里存在两个前提:


① 个性化的数据收集,能够很方便的拿到用户数据。


② 个性化策略的执行,能够很方便的进行个性化的执行。


这两个前提在线上都很容易去完成,不用像线下企业那样,如果要个性化的执行每一个事情的话,就需要投入大量的人工,线上是完全可以靠机器去搞定的。所以这就是互联网成为大数据技术乐园的一个主要的原因。


替代人工的应用思考


以 AlphaGo 为例,AlphaGo 赢了人类的围棋世界冠军,在近几年,形成一个非常大的轰动,很多普通人都关心是不是人工智能马上就要战胜人类了,我们有一天要被人工智能取代了。这里要跟大家说的是 AlphaGo 除了能下围棋什么都干不了,比如点外卖,做作业,这些 AlphaGo 都是做不了的。另外,在一些纯粹的数学计算上,机器几十年前就已经超越人类了,为什么当时没有人认为机器马上就要超越人类呢?并不是说 AlphaGo 这个项目的意义不够重大,但是 AlphaGo 完全没有必要引起大家对人工智能马上就要干掉人类这种不太现实的猜想。那么通过 AlphaGo 可以发现目前机器擅长的事情,首先 AlphaGo 有如下特点:


① 围棋的规则是一个死规则,不像人类世界这样复杂多变。


② 单一场景,除了围棋之外,不能点外卖和陪你看 NBA。


③ AlphaGo 有一个非常取巧的地方,就是原始的训练数据。AlphaGo 通过机器跟机器下棋的方式,来得到大量的下棋的数据,这些下棋的数据为 AlphaGo 的训练提供了海量的数据集,这对于人类来说是做不到海量数据集的训练的。


通过这样的案例总结,我们就会发现,机器和人类擅长的东西不太一样,机器擅长的是单一的场景,同类型的,海量数据的问题,人类擅长的是关联场景,通过不同类型的少量数据进行联想抽象。基于这样的分析,我们可以判断下哪些场景会被机器取代人工,这里分享一个判断规则,叫做三秒钟准则:


大家可以这样思考下,我们正在做的工作是不是 3s 内可以解决的?比如开车,人类可能在下意识 1~2s 内就进行决策了。再比如翻译一句话,可能也是 1~2s 就翻译出来了。但是有一些深入的思考,显然不是 3s 内能够解决的,比如怎么样系统化来解决某些系统性任务,这往往需要人类几十天甚至上百天对这个任务的不断思考、创新,这样的一些工作,大家完全没有必要担心会被机器所替代。


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247493670&idx=2&sn=73ad143883506f33d603bdd44be859f0&chksm=fbd75a4acca0d35cd291c216a289981d595b28ab0c628bfad251ae386c68b634673d376989f2&scene=27#wechat_redirect


2019-10-02 08:001519

评论

发布
暂无评论
发现更多内容

作为专业通信云产业领军者,融云获颁「2023 产业数字化金铲奖」

融云 RongCloud

淘宝店铺所有商品数据接口丨获取淘宝整店商品数据技术方法

tbapi

淘宝电商 淘宝API接口 淘宝店铺所有商品数据接口 淘宝整店商品数据接口 天猫店铺所有商品数据接口

Prompt Tuning:大模型微调实战

百度开发者中心

深度学习 大模型 Prompt

大模型参数高效微调技术原理综述

百度开发者中心

深度学习 大模型 LLM

GoodNotes 5 for Mac(手写笔记软件)

Rose

每日一题:LeetCode-560. 和为 K 的子数组

Geek_4z9ami

Go 面试 算法 LeetCode 前缀和

Prompt Engineering 可能会是 2024 年最热门的“编程语言”?

Baihai IDP

AI ChatGPT LLM 白海科技 Prompt Engineering

专业VJ软件Resolume Arena mac破解版 Resolume Arena 6 配置要求

Rose

融云荣获艾媒咨询「2023 年中国新经济卓越成就奖」

融云 RongCloud

探索文心千帆大模型平台: 代码编写从此变得轻松

百度开发者中心

人工智能 nlp 大模型

OLAP引擎也能实现高性能向量检索,据说QPS高于milvus!

字节跳动数据平台

数据库 大数据

SQL性能调优:最佳实践分享

伤感汤姆布利柏

Image Deblur - Blurred & Shaky for Mac(模糊图像处理工具)

Rose

QCA9882: The powerful engine of wireless LAN

wallysSK

如果公司业务需要频繁更换IP地址,应该如何处理?

Finovy Cloud

云计算 网络安全 IP IP地址 高防IP

公司想做一套数字化管理系统,该怎么做?

天津汇柏科技有限公司

数字化管理

Java Chassis 3技术解密:注册中心分区隔离

华为云PaaS服务小智

云计算 华为云

一文让你对mysql索引底层实现明明白白

京东科技开发者

想提高阅读代码的效率?试试这些工具吧!| 京东云技术团队

京东科技开发者

设备组件文件转换为EVE-NG环境的支持组件

小齐写代码

融云 CEO 董晗入选「2023 福布斯中国 · 出海全球化人物 TOP30」

融云 RongCloud

TouchDesigner Pro 099 Mac破解版,可视化原型设计渲染工具

Rose

【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(Dockerfile使用手册)

洛神灬殇

Docker 容器 后端 2024年第十二篇文章

MagicOS 8.0,焕新升级。

荣耀开发者服务平台

AI 智能化 智慧生活 honor 交互模式

六个案例搞懂间隙锁

Java随想录

Java MySQL

百度机器学习课程 (四):跨上大数据的战车_AI&大模型_DataFunTalk_InfoQ精选文章