AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

探索在线教育场景下的数字化应用,作业帮 NLP 技术分享

  • 2021-06-28
  • 本文字数:1782 字

    阅读完需:约 6 分钟

探索在线教育场景下的数字化应用,作业帮NLP技术分享

近日,QCon 全球软件开发大会在北京国际会议中心举行,150 余位演讲嘉宾现场分享最新技术创新和实践,为大家带来一场浩瀚的技术之旅。受大会邀请,作业帮中台产研中心蒋宏飞博士,在会上分享了 NLP((Natural Language Processing)技术在在线教育服务中的实践和创新。


数字化的终极追求是因材施教


"DT(Data technology)的本质就是可以批量化生产个性化的产品和服务。"对于这句互联网“名言”,蒋宏飞解释说,这里面的两个关键词就是批量化、个性化,原本他们是矛盾的,批量化意味着强调效率,而个性化意味着强调体验,这是个“两难”的问题。如果能逐步达到“数字化”,那么这个矛盾就可以得到不同程度的化解。


蒋宏飞说,在企业数字化中,非常核心的一块是"用户数字化"。用户数字化的终极追求莫不过人们耳熟能详的这些词:用户画像、用户分层、用户运营、千人千面等等。在教育场景下,就是个性化教学、个性化学习规划、个性化题目推荐等。


蒋宏飞表示,在目前主要的互联网商业模式中,在线教育服务的主流模式是双师直播大班课。在这种模式中,人的服务占很大比重,人与人的沟通占服务的很大比重。这是在线教育服务的主要特点。


在线教育服务中的“数字化挑战”


他说,在线教育服务场景下主要用户数据类型包括:打点行为类数据。这个是大家最常见的,是结构化的;第二类:评价类数据,这些数据有结构化,也有非结构化的;第三类:问卷类数据。这里面有一部分也会是开放式主观反馈,属于非结构化文本数据;第四类:服务沟通类数据。上课时和主讲/辅导老师以及其他同学的弹幕互动,和辅导老师以及客服的沟通等等。这些数据都是非结构化文本数据。


蒋宏飞表示,这所有数据中,非结构化文本数据大量存在与在线教育场景中,属于核心业务环节产生的数据,量大而且内容丰富。但这些数据的结构化处理对"数字化"意义重大,在技术上也是最具挑战的。


“非结构化数据的结构化,是全面数字化的最后一道障碍。”蒋宏飞说,在传统的数字化建设中,一般都会经过这几步:数据采集、数据治理、数据挖掘、数据分析、智能应用。在线上教育这种重“沟通服务”的场景里,文本结构化变成不可或缺的重要一环,介于数据治理和数据挖掘之间。而要做好文本数据的结构化,打通这个“数字化”的关键环节,就需要用 NLP 技术。



作业帮的 FTP 应用和实践


蒋宏飞表示,NLP 在工业界落地的两种主流技术方案粗粗划分下大致分为词式、语义式。FTP(Fast Text Processing)平台(编者注:借用了计算机领域的一个术语,实际上两者没有任何关系)对应的是后者。为什么要做这个平台?蒋宏飞说,远景目标是赋能公司业务运营数字化、精细化、智能化。具体考虑三点:一是业务的需求越来越多,越来越复杂,要的越来越着急;二是沉淀下来的数据和模型,希望能在后续不断复用起来;三是算法方面也不能一直写临时训练脚本,需要有个平台积累起来,让算法能力有个持续建设成长的承载。


蒋宏飞说,FTP 着重一个快字。为了实现这个目标,它的第一个策略就是优先处理头部典型数据。技术点就是主动学习+聚类,找到头部聚集的簇中,代表性的质心数据,将人工标注收益最大化;第二个策略是自训练,迭代起来,用高置信度复核数据充实训练数据,让模型尽快学习完善,并自动标注数据。



他说,FTP 里面涉及到的技术点非常丰富,应用场景也极为多样,包括从个性化服务支撑、用户专题研究、用户反馈深度挖掘再到质量保障辅助等等。作业帮在 FTP 中融合了很多结合业务场景的经验和微创新,也陆续产出了一些专利。


以质量保障辅助为例,作业帮的用户群广,很多都是偏远地区的孩子,网络质量、手机质量等等千差万别。事先很难能测的很全面,所以 FTP 也会支持质量保障部的同学做一些监测方面的数据打标辅助。这样就能帮助质量保障部的同学及时发现问题,以支持研发同学尽快调整优化保障使用不同机型的学生都能有流畅的听课体验。


“在线教育服务场景中的文本数据结构化是 NLP 应用的又一个广阔战场。”蒋宏飞表示,在线教育服务场景的支撑技术落地上,还面临很多开放性挑战,希望与大家一起去探索、实践、赋能。



QCon 是由 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5 年以上工作经验的技术团队负责人、机构师、工程总监、开发人员分享技术创新和实践。

2021-06-28 11:421263

评论

发布
暂无评论
发现更多内容

使用gitlab ci构建IOS包并发送通知消息到企业微信

Zoe

ios ci gitlab

MySQL实战四十五讲基础篇总结(三)

一个有志气的DB

MySQL mysql事务

【教你如何写作】参与创作,领取 InfoQ 编辑训练营内训课程

InfoQ写作社区官方

写作平台 投稿 热门活动

识别代码中的坏味道(四)

Page

敏捷开发 面向对象 重构 CleanCode 代码坏味道

比特币为什么值两万亿?

Haiyung

比特币

工信部报告显示:电话越打越少 、短信越发越多……这是怎么回事?

赵新龙

短信 工信部

视频 | 5款免费翻译软件实测对比,从花花董花花的被删微博到北京话“你丫给我站住了”都能翻译

赵新龙

翻译

干货分享:分布式场景之刚性事务-2PC详解

奈学教育

分布式

Flink 与 Hive 的磨合期

Apache Flink

大数据 flink 实时计算

回顾 | Apache Flink Meetup 杭州站圆满结束(附PPT下载)

Apache Flink

大数据 flink 流计算 实时计算

霸榜 GitHub,一款开源的 Linux 神器!

GitHubDaily

GitHub Linux 编程 开发者工具 计算机网络

【玩转写作社区】Markdown & 快捷键详解

InfoQ写作社区官方

写作平台 markdown 编辑器 快捷键 玩转写作平台

spring事务原理

年轮

spring 源码分析

如何讲好故事

Bob Jiang

MySQL实战四十五讲基础篇总结(二)

一个有志气的DB

MySQL 日志

SQL 找出 100 以内的质数

zero

sql MySQ

编辑距离的计算

zikcheng

算法 编辑距离

程序员的晚餐 | 5 月 19 日 蒜香鸡腿,味道令人惊讶

清远

美食

Java开发架构篇:初识领域驱动设计DDD落地

小傅哥

设计模式 领域驱动设计 DDD 小傅哥 架构设计

都在这儿了!5月 Flink 社区发版、更新汇总

Apache Flink

大数据 flink 流计算 实时计算

亲密爱人

Janenesome

爱情

如何成为一名具备产品思维的软件工程师?

顾强

产品 开发者 职场

物联网技术栈之通信技术

老任物联网杂谈

物联网 通信

Flink Weekly | 每周社区动态更新-20200513

Apache Flink

大数据 flink 实时计算

MySQL实战四十五讲基础篇总结(一)

一个有志气的DB

MySQL

任何事物当中的百分之九十都是垃圾?

池建强

互联网 信息噪声

为什么window.open只是打开了一个空白页

阡陌r

Java 踩坑 网络协议

有趣的解谜:Python Challenge

封不羁

Python

一款Python实用神器,5 行 Python 代码 实现一键批量扣图

狂师

Python 学习 效率工具 开发者工具 开发

单例模式——独一无二的对象

大头星

Java 面试 设计模式 单例模式

你是不是对副业有什么误解?

一尘观世界

程序员 副业 认知提升 思维方式 格局

探索在线教育场景下的数字化应用,作业帮NLP技术分享_语言 & 开发_作业帮技术团队_InfoQ精选文章