最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

百度机器学习课程 (五):如何跨上大数据的战车

  • 2019-10-05
  • 本文字数:3392 字

    阅读完需:约 11 分钟

百度机器学习课程 (五):如何跨上大数据的战车

案例:教育个性化学习路径


首先我们将通过一个具体的案例,看看是否可以用机器学习的方式去解决它,以及在解决过程中产生的问题与思考。


这是一个教育个性化学习路径的案例。当我们翻开一本几何教材,我们会发现它是一个标准的学习路径:会按照点->线段->三角形->圆的标准学习路径进行学习。实际上,这个学习路径背后知识点的依赖关系往往是一个网状的。这样一个网状知识点的依赖关系,其实可能会产生非常多的可行的学习路径,而不一定是我们书本上现在罗列的这种标准的学习路径,只要不破坏这种网状的知识点依赖的关系就可以。比如说可能今天先要学矩形的面积求解,再学三角形的面积求解,因为三角形的面积求解可能要用到矩形面积的求解,在这样的一个知识点的依赖关系下,我们最好先学前置的一些知识,再学后面的一些知识。


问题是这样的,我们是否可以为每位学生推荐一个个性化的学习路径,而不一定非得按照课本上标准的学习路径进行学习,从而产生一个更好的学习效果。关于这个问题,我们思考一下解决方案,大概可以分三个步骤:


Step 1:首先把所需知识点依赖关系做出来,然后根据知识点依赖关系,生成可能的学习路径的候选集。


Step2:当生成候选集之后,需要设定优化目标,究竟什么样的学习路径对一个同学来说是好的,什么样是不好的。


Step3:利用大量历史的学习这些路径可能的结果,对路径做评分排序,最后我们为每位同学选择最适合他的一个路径,让他进行系统的学习各个知识点。



具体的实践步骤为:


  1. 知识点图谱与相应素材的挂接。把整个知识点和相应素材的依赖关系的图谱画出来,它是一个上下层的结构,上层为知识点层,下层为基本素材层,它们之间都会有一定的先后的依赖的关系。

  2. 基于知识点图谱的动态测评。得到知识点图谱之后,会测评用户目前对知识点的掌握程度。如图 2,有 9 个知识点,每个知识点会对应打 0~5 分,如果得分是 5,表示用户完全掌握了这个知识点,0 分,则表示用户完全不知道这个知识点。这样我们基于评测得到了用户对知识点的掌握情况。

  3. 基于个性偏好的高性价比目标分解。接下来,会根据用户的个性偏好设定一个目标,比如用户需要完成知识点 7,并获得一个较好的分数,那么用户需要对知识点 7 及和知识点 7 相关联的知识点 1,2,3,5 都有一个较好的掌握,也就是基于个性偏好的高性价比目标分解。

  4. 实时学习子图的生成。将目标分数和目前掌握的分数做减法,就得到了用户在哪些知识点需要提升的分数,这样我们就得到了一个实时学习的子图。

  5. 学习路径候选集的生成。在这个学习图谱的基础上,我们就可以生成用户可能的学习路径候选集。

  6. 评价函数的设定与参数训练。最后根据评价指标来对候选集进行排序,选择出一条对用户来说性价比最高的学习路径。性价比(评价指标/目标函数)=成本/收益。其中成本:费用、时间,收益:学习效果以及对这个学习路径的评价等。我们可以通过计算大量的用户历史数据,来训练出这个性价比,也就是评价指标。最后根据训练出的评价指标模型,我们能够预测出对一个具体的用户,一个具体的课程,用户应该选择怎样的一条学习路径。


这就是一个详细的通过历史数据进行机器学习的方案,大致的一个实现过程。

思考和反思


我们来反思下这个过程,会不会存在一些问题。我们知道,要建设一个非常好的机器学习任务,需要有四个非常重要的环节:数据、模型、业务和需求。我们来看下,在这四个环节中,会存在哪些问题:


  • 数据:产品从 0->1 时没有数据

  • 模型:候选路径生成,路径排序,整个流程没有问题

  • 业务:知识结构->测评工具+目标拆解->待提高知识点结构,对于业务来说,我们需要完成几件事情,比如需要事先生成知识图谱的结构,需要有很好的测评工具,能够真实的评判出每一个用户的喜好,还需要知道用户对每个知识点的掌握程度,这些都是不能通过机器学习解决的,需要业务有很多其他的模块和工具。

  • 需求:如果 90%同学的最优路径相同。比如我们生成了 10 条路径,但是我们发现 90%同学的最优学习路径是同一条,也就是现在几何课本上的顺序。这意味着这样一个个性化学习路径对用户来说是没有价值的。


我们反思下,其实即使在模型和业务上没有任何问题,还是存在两个比较大的问题:


  • 第一个是在数据环节就存在比较大的问题,因为产品初期是没有任何数据的,这款产品初期在市场上的成功,一定不是依赖于数据技术,需要其他的启动优势。

  • 第二个比较大的问题是需要对用户的需求做更详细的评测。评测出这款产品不只是“假想”,如果发现 90%以上同学在课本上的学习路径,就是一条最优路径,那么这个业务一开始就不应该做,因为即使做得再好,也是没有价值的,或者贡献很小。


所以,再次强调,一旦我们用机学习解决业务问题时,不仅仅要考虑模型技术本身,还要对整个的数据、模型、业务和市场有一个非常透彻的理解,把这四个环节串起来,才能形成一个完善的解决方案,我们才能跨上大数据的战车。

企业对数据技术及人才的定位


关于企业对数据技术定位的一些观点:


  • 基因论:一旦创业者或者创业团队没有数据技术背景或者机器学习背景时,我们会发现他们选择的项目,往往都会把数据技术排除在外,这样就导致企业很难通过现在的项目来吸引做数据技术的人才,这样就导致了一个恶性循环,进而使企业离竞争对手越来越远。

  • 数据技术往往是在企业发展期才开始起到关键作用,也就是只有当产品在市场上站住脚,用户规模的不断扩大,才会产生海量的用户使用数据,这时我们就可以利用数据技术来进一步优化产品。归结起来就是生存期(0->1)往往没有积累数据,需要其他的产品优势来带动企业的发展,当进入发展期(1->无穷)有了数据积累后,数据技术才开始逐渐发力。

  • 数据技术不是壁垒,数据本身是壁垒,没有任何一项技术永远会是黑科技,但是随着数据的积累,数据本身的价值会越来越大,而这个数据是其它企业拿不到的。

  • 什么样的企业是 AI 企业?只有 AI 工程师的公司不是!因为整个 AI 的应用,是包括对数据、业务、市场需求、模型等方方面面 形成整个的产业理解才能去构建的,并不是几个 AI 工程师会写一些代码就可以实现的,很多时候需要我们整个企业的决策层,甚至企业的产品经理和业务人员全都需要对 AI 有一个非常深入的理解,才能使我们的整个业务产生一个质的变化,最后成为一个 AI 企业。


关于数据技术人才定位的一些观点:


  • 误解 1:有些同学是找不到龙的屠龙者。通常在学术界做的非常成功的人,都会存在这样的一些问题,虽然掌握了很多算法模型技术,但是缺少对业务的深刻的理解和广阔的知识面。真实的项目中,其实是机器技术跟业务进行的一种深度的偶合,最后才创造出一些真正解决实际问题的效果非常好的模型,而这些模型往往不是只掌握这些技术本身就能够做出来的。

  • 误解 2:有些同学是黑盒工具论的鼓吹者。比如我掌握了一些业务问题,而市面上有很多开源的机器学习工具,我只需要把接口弄弄,然后套一套机器学习工具就实现了,这样做的效果往往是不好的,我们会发现,只有对模型有深入的理解,能够在很多细化的环节作出调整,才能形成一个比较好的解决问题的方法。


最后总结下,如果大家想成为一个数据技术人才的话:一方面,我们要对模型有一个白盒的、透彻的、深入的理解;另一方面,对业务应用有相对的理解和思考,两者结合才能产生一个良好结果。

总结与反思

到此,回顾下第一部分的四方面内容:



人类学习:归纳+演绎,个案学习->统计学习


我们能相信统计么?基于概率的信任



监督学习:预测 Y~X,训练+预测,统计学习


监督学习核心:假设空间+优化目标+寻解算法



更精细的刻画:释放了规律的可能


更智能的学习:规律学习不再依赖人类知识



为何要跨上大数据的战车?功与守


如何跨上这个战车?数据<->模型<->业务<->需求

附录:期待下一部分


第二部分内容预告(由浅入深):


① 框架拆解:怎么学到?(线性回归、逻辑回归、感知机)


② 学习理论:为何能学?(大数定律->过拟合->正则化->校验)


③ 复杂模型:如何强大?(神经网络->深度学习->表示学习)


④ 使用技巧:怎么学好?(特征工程 &样本处理->模型->模型评估)


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247493765&idx=2&sn=0b4ee67255441a8e133ceb4fff83998d&chksm=fbd75ae9cca0d3ff8c667c5ae2bcdbb9d85b308d41a904e11125e26c9ae0af5c3f2dbd1dce9c&scene=27#wechat_redirect


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-05 08:001774

评论

发布
暂无评论
发现更多内容

新疆重点人员管控系统搭建,指挥调度系统开发

机器学习训练营第一次作业

学习

8K视频指的什么?8K视频处理和工作原理分析

科技猫

技术 分辨率 视频 视频处理 8k

BOE(京东方)亮相数字中国 “三驾马车”加速物联网战略转型

爱极客侠

【论文分享】Presto: SQL on Everything(二)

小舰

4月日更

百度商业大规模微服务分布式监控系统——凤睛

百度Geek说

数据库 分布式 微服务 大前端 监控

一种自适应混合域音频无声水印

行者AI

音频

curl使用

Hex

工具

使用开源项目必须保留作者姓名?开源软件不能商用?我们需要先学会分辨开源许可证

郭旭东

开源 开源文化

德赛西威与华为签署全场景智慧出行生态解决方案合作协议

聚力区块链 共建数字中国丨“桂链”平台正式发布并启动全面接入“星火·链网”

浪潮云

云计算

20年研发安全积累,5大研发安全能力让软件“天生安全”

华为云开发者联盟

DevOps 安全 DevSecOps 华为云 devcloud

软件 IT 专业的高校大学生创新创业问卷调查

五分钟学大数据

问卷调查

全球案例 | Dropbox: 在 COVID-19 时代通过 Atlassian 为远程工作提供动力

Atlassian

敏捷 Atlassian Jira 远程工作 Dropbox

BOE(京东方)成都数字医院开诊,投资60亿打造西南智慧医疗创新典范

爱极客侠

分布式存储中间件(1):10000字把Redis扒个干净,一发入魂

北游学Java

Java 数据库 redis 分布式

commons-pool2 池化技术探究

vivo互联网技术

Java common-pool2 池化技术

智慧公安情指勤指挥调度平台搭建,指挥中心平台搭建

老爷子这代码,看跪了!

why技术

Java

如何用iMazing备份恢复贪婪洞窟

懒得勤快

又有400多个组件支持鸿蒙了!

Geek_283163

华为 鸿蒙

Leveldb解读之二:Read

Jowin

leveldb

传统行业为什么需要互联网人才

陈俊

北京天源迪科亮相2021年企业数字化转型峰会暨山东CIO智库年会

DT极客

如何快速准备高质量的AI数据?

华为云开发者联盟

AI 数据 华为云 modelarts 数据标注

FusionInsight MRS:你的大数据“管家”

华为云开发者联盟

大数据 数据湖 云原生 华为云 FusionInsight MRS

低功耗深度休眠后无法唤醒、烧录程序,怎么办?(华大半导体HC32L136)

不脱发的程序猿

嵌入式软件 单片机 4月日更 华大半导体 HC32L136

全球案例 | Dropbox: 在 COVID-19 时代通过 Atlassian 为远程工作提供动力

Atlassian

DevOps 敏捷 远程办公 Atlassian Jira

干货拉满!阿里公开内部P9级架构师(Java)成长路线图,满满的干货

Java架构追梦

Java 阿里巴巴 架构 面试 成长路线

Java中&、|、&&、||详解

Sakura

4月日更

Linux内核源码分析:基于最新的Linux 4.0内核(学习路线总结)

Linux服务器开发

后端 Linux内核 内核源码 内核4.0 底层原理

百度机器学习课程 (五):如何跨上大数据的战车_AI&大模型_DataFunTalk_InfoQ精选文章