百度机器学习课程 (四)：跨上大数据的战车_AI&大模型_DataFunTalk

数据量和数据内涵的增长曲线

首先，这是我们近些年观察到的，不光是互联网，整个中国的各个行业都在发生的一个事情：我们的数据量和数据的内涵在进行一个非曲线的快速增长。这里，我首先说一下数据量的非线性增长，随着收集手段不断的先进化，随着日常工作和生活不断的 it 化、移动化，我们能够收集到的数据肯定是一个非线性增长的。但是，什么叫做信息的内涵非线性增长，它指的是如果有两个不同类型的数据，我们把这两个类型的数据结合在一起，它们产生的价值是 1+1＞2 的。比如，一个人从他早上开始起来，可能就开始登陆一个论坛浏览新闻，之后可能会对去哪度假感兴趣，所以搜索了很多度假相关的事情，白天上班，他可能又搜索了很多跟他工作相关的一些问题，最后晚上回家，他可能又去网上购物，或者把之前看好的一些要出行的行程定下来，在整个白天上下班使用交通工具的时候，他又通过地图留下了很多位置移动的数据。如果我们把这位普通人一天生活的方方面面的数据都集合在一起，会发现我们对一个人的了解要深刻的非常多。这也就是说我们每一个数据如果是 1 的话，我们把所有这些 1 加起来，其实要大于它们本身单独刻画之和的。这就是说即使我们数据量是线性增长的，我们如果有这种累加项的话，我们整个信息的内涵也是在非线性增长的，更别提数据量本身也在非线性的增长。

为何要跨上大数据的战车？

1. 攻：促进业务发展

接下来考虑下，作为一个业务的负责人，为什么我们今天说一定要跨上大数据的战车呢？可以从功和守两方面进行总结。首先我们先从攻的角度进行总结，攻的角度是可以促进业务发展。

假设有这样一个业务，提供给用户的价值是基于数据和数据技术进行搭建的，它的价值与数据量是息息相关的。假设数据量出现一个非线性的爆发式增长，那么，业务价值或者提供给用户的价值，以及业务的商业价值，是不是也可以出现非线性的爆发式增长？也就是说如果我们的业务是基于数据和数据技术来进行优化的，那我就会骑上这样一个数据增长曲线，使我的业务价值出现一个突飞猛进的增长。这样的思路，有点类似于“大鹏一日同风起，扶摇直上九万里”。所以，大家想跨上大数据战车，从攻的角度来说，是期望业务的发展可以跟数据量的增长绑定起来，随着数据量的增长，会使业务发展的越来越好，业务价值越来越高。

2. 守：核心竞争力

守的角度：数据和数据技术所做的价值，是企业的核心竞争力。如果大家有一些创业的经历或者经常跟投资人交流，就会发现从投资人非常关注创业者在商业上成功的可能性。

因为对于大多数的投资人最核心的事情是投资回报率，只有创业者最后成功了，他们才能拿到投资的回报。在和投资者交流的过程中，你会发现，如果一个创业项目是通过技术来创业的，投资者通常会问两个问题：

第一个问题是这项技术所做出来的产品究竟满足了用户的什么需求？我们知道，一项技术只有满足需求才可能有市场价值，如果我的技术对改善人类的生活没有任何的意义是非常难被商业化的。

第二个问题是如何控制这项产品和技术的供给。经常会有这样的一个误解，就是我的产品只要满足市场需求，肯定能在商业上活得很好，这其实是完全错误的观念。假如现在有三种商品，第一种是空气，第二种是水，第三种是房子。人们对哪种产品的需求是更迫切的，或者是更大的。很明显，人类最需求是空气，其次是水，再其次才是房子。但从市场价格上讲，这三个的价格完全是反过来的，房子是最贵的，水是比较便宜的，空气是不要钱的。实际上，这就是供给在起作用。如果有项技术能够满足市场上大部分的需求，同时又能控制住供给，只有我能做而别人都做不了，可以想象，这项生意会在市场上创造巨大的利润空间。这就是投资人最关注这两个问题的原因。

为什么今天很多企业都在强调，一定要持续的技术创新，从市场和经济的角度理解，创新就是追求垄断，垄断就是追求利润。但是技术创新只是一个领先的时间窗口，还需要进一步的持续发展才能使其更加稳固。大家可以看下上面这幅图，通常一个企业的发展模式是这样的，首先有一项技术，这项技术是非常领先的，导致产品领先，更受用户的欢迎。由于有很多用户使用这个产品，使用的过程中会产生很多的使用数据，通过对这些数据的积累就变的领先，可以进一步促进产品体验的领先，这就进入了一个非常好的正向循环。这样的正向循环，可以更安全的保证这款产品在更长的时间里保持领先。今天大家都知道没有任何技术是黑科技，当年福特很便宜的价格生产出福特汽车的时候，大家认为这是黑科技，但是今天没有任何一个认为生产汽车还是黑科技。今天，对于机器学习技术、人工智能技术也是这样，没有任何技术会黑科技到永远，都会有一个时间窗口，我们要做的就是在这个时间窗口内，尽快把这项技术转化成产品的领先，让产品领先沉淀成数据的领先，最后通过数据领先和产品领先这样的一个不断循环的正向的循环，来使得我们在市场上取得一个垄断的地位。

以搜索引擎为例，搜“万年小学生”，只有关注动画的人才知道，这实际上是指柯南，但是搜索引擎识别出来了，找出来大量的结果都是柯南，关于柯南的说明、电视、影视资料等。为什么爱搜索引擎会知道“万年小学生”就是柯南？实际上，这是通过大量的用户投票数据造成的。比如，当有一个用户搜“万年小学生”，他会点击很多标题，这个标题可能就含有柯南的字样。同时，也有一些用户会搜索“柯南”，但是他们会点击一些含有“万年小学生”的文档或网页结果。通过大量的用户点击和投票的数据，我们就知道，对于大部分用户来说，“万年小学生”跟“柯南”是一个意思。这就是搜索引擎基于数据，对用户需求有一个更深、更好、更全面的掌握。一旦进入这样的一个循环，很多搜索竞品是很难打打败他的，比如搜索引擎 A 和 B 在技术层面基本相同，但是 A 积累了大量的数据，我们就会发现 A 的搜索效果要比 B 好很多，尤其在那些相对长尾的搜索关键词上，就是数据领先和产品领先交织成的一个非常好的良性的正向循环。

我们永远不要指望靠技术保持领先，因为没有任何技术是永远的黑科技。

谈了攻守两方面的考虑，接下来可能要跟大家去泼一些冷水。今天我们想把整个机器学习和大数据技术应用在我们的具体业务中，这件事情往往不是一个技术的事情，而是需要我们从业务模型，数据需求多方面来形成一个完整的链条，才能够实现的一件事情：

3. 大数据的应用场景及产业链条

大数据的常见应用场景：

① 个性化匹配：在长尾经济与共享经济下的全新业务模式

信息、商品、服务、资源的个性化匹配，如：搜索，新闻 APP，电商，找工作/对象，打车 APP，信贷等。

② 代替人工：业务中的人工环节，引入智能模型，提升效率

基于大数据的智能学习，替代机械性的人工服务，如：机器翻译，人脸检测的安保系统，电商的自动客服，无人车等。

大数据不仅仅是数据技术，还需要完整的产业链：

数据 -> 模型 -> 业务 -> 需求

只有这些链条能够全部串联起来的时候，才能说我们真正利用了大数据技术解决了我们的业务问题。以买鞋的案例来说，首先我们需要有很多顾客购买各种各样鞋子的数据，然后建立一个个性化推荐的模型，而我们的业务是鞋厂可以根据用户个性化的需求，来规模化的生产各种各样的鞋子，最后的需求，我们需要确认顾客个性化的喜好和风格。只有数据、模型、业务和需求，这四方面全部 OK 的时候，才能真正的建立一个完整的基于数据技术的产业链条，而不仅仅是招来几个做机器学习的人，搞一些机器学习的技术，却没有对用户需求和业务进行深刻认知。

4. 个性化匹配及代替人工的应用思考

个性化匹配的应用思考：

① 餐饮：叫个鸭子，业务偏线下，可以用数据分析来改善业务，如业务的覆盖区域，送货网点的选择。

② 教育：培育 100，业务线上线下都有，除了提供家长和学校沟通的基础功能外，还可以附加个性化服务，如针对每个孩子，为家长提供个性化教育的建议。

③ 导购：半糖 APP，业务完全基于线上，完整应用大数据技术构建推荐系统，为用户提供个性化的商品。

通过这三个案例，我们需要反思下，为什么互联网会成为大数据技术的乐园呢？这里存在两个前提：

① 个性化的数据收集，能够很方便的拿到用户数据。

② 个性化策略的执行，能够很方便的进行个性化的执行。

这两个前提在线上都很容易去完成，不用像线下企业那样，如果要个性化的执行每一个事情的话，就需要投入大量的人工，线上是完全可以靠机器去搞定的。所以这就是互联网成为大数据技术乐园的一个主要的原因。

替代人工的应用思考：

以 AlphaGo 为例，AlphaGo 赢了人类的围棋世界冠军，在近几年，形成一个非常大的轰动，很多普通人都关心是不是人工智能马上就要战胜人类了，我们有一天要被人工智能取代了。这里要跟大家说的是 AlphaGo 除了能下围棋什么都干不了，比如点外卖，做作业，这些 AlphaGo 都是做不了的。另外，在一些纯粹的数学计算上，机器几十年前就已经超越人类了，为什么当时没有人认为机器马上就要超越人类呢？并不是说 AlphaGo 这个项目的意义不够重大，但是 AlphaGo 完全没有必要引起大家对人工智能马上就要干掉人类这种不太现实的猜想。那么通过 AlphaGo 可以发现目前机器擅长的事情，首先 AlphaGo 有如下特点：

① 围棋的规则是一个死规则，不像人类世界这样复杂多变。

② 单一场景，除了围棋之外，不能点外卖和陪你看 NBA。

③ AlphaGo 有一个非常取巧的地方，就是原始的训练数据。AlphaGo 通过机器跟机器下棋的方式，来得到大量的下棋的数据，这些下棋的数据为 AlphaGo 的训练提供了海量的数据集，这对于人类来说是做不到海量数据集的训练的。

通过这样的案例总结，我们就会发现，机器和人类擅长的东西不太一样，机器擅长的是单一的场景，同类型的，海量数据的问题，人类擅长的是关联场景，通过不同类型的少量数据进行联想抽象。基于这样的分析，我们可以判断下哪些场景会被机器取代人工，这里分享一个判断规则，叫做三秒钟准则：

大家可以这样思考下，我们正在做的工作是不是 3s 内可以解决的？比如开车，人类可能在下意识 1~2s 内就进行决策了。再比如翻译一句话，可能也是 1~2s 就翻译出来了。但是有一些深入的思考，显然不是 3s 内能够解决的，比如怎么样系统化来解决某些系统性任务，这往往需要人类几十天甚至上百天对这个任务的不断思考、创新，这样的一些工作，大家完全没有必要担心会被机器所替代。

本文来自 DataFun 社区

原文链接：

https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247493670&idx=2&sn=73ad143883506f33d603bdd44be859f0&chksm=fbd75a4acca0d35cd291c216a289981d595b28ab0c628bfad251ae386c68b634673d376989f2&scene=27#wechat_redirect

发布

暂无评论

创作场景

百度机器学习课程 (四)：跨上大数据的战车

数据量和数据内涵的增长曲线

为何要跨上大数据的战车？

1. 攻：促进业务发展

2. 守：核心竞争力

3. 大数据的应用场景及产业链条

4. 个性化匹配及代替人工的应用思考

评论

算法刷题-单词接龙、矩阵中的最长递增路径、Z 字形变换

FastAPI 快速开发 Web API 项目: 通过 SQLAlchemy 进行数据操作

分析nginx访问日志，统计前10的ip

阿里云张献涛：云原生计算基础设施助力汽车行业数字化升级

如何搭建自己的ChatGPT网站，它来了

新起点！大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本

使用体验 I 早知道 TDesign 支持 AVIF 图片压缩，我就不用为流量和格式发愁啦！

火山引擎云原生数据仓库ByteHouse技术白皮书V1.0 （Ⅳ）

网络工程师经常搞混的路由策略和策略路由，两者到底有啥区别？

MobTech 秒验|守护账户安全

舒明：稳定支撑日高峰亿级保单交易，国泰产险的运维创新实践

云原生时代，不可不知的基础设施即代码(IaC)

软件测试/测试开发丨Pytest 自动化测试框架(一)

C++实现消息队列

中国年轻人阅读洞察2023

IPv6常见安全问题

什么是全民开发？｜概念、技能和优势

连续3天3场分享，KubeVela@KubeCon EU 2023 抢鲜看！

火山引擎 DataLeap 下 Notebook 系列文章二：技术路线解析

PageObject设计模式

从零学习SDK（8）SDK的集成和部署

OpenKruise V1.4 版本解读：新增 Job Sidecar Terminator 能力

性能报告 | YMatrix 5.0 对比 Greenplum 超 12 倍性能提升，TPC-H 基准测试报告发布

Kubernetes网络策略之详解

数据中心厂商超云加入龙蜥社区，多款服务器完成与龙蜥操作系统适配

软件测试/测试开发丨Pytest 自动化测试框架(二)

华为阅读发布最新进展，月活用户超1亿，大力发展精品阅读

Selenium测试用例如何编写

创作场景

百度机器学习课程 (四)：跨上大数据的战车

数据量和数据内涵的增长曲线

为何要跨上大数据的战车？

1. 攻：促进业务发展

2. 守：核心竞争力

3. 大数据的应用场景及产业链条

4. 个性化匹配及代替人工的应用思考

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载