写点什么

探索在线教育场景下的数字化应用,作业帮 NLP 技术分享

  • 2021-06-28
  • 本文字数:1782 字

    阅读完需:约 6 分钟

探索在线教育场景下的数字化应用,作业帮NLP技术分享

近日,QCon 全球软件开发大会在北京国际会议中心举行,150 余位演讲嘉宾现场分享最新技术创新和实践,为大家带来一场浩瀚的技术之旅。受大会邀请,作业帮中台产研中心蒋宏飞博士,在会上分享了 NLP((Natural Language Processing)技术在在线教育服务中的实践和创新。


数字化的终极追求是因材施教


"DT(Data technology)的本质就是可以批量化生产个性化的产品和服务。"对于这句互联网“名言”,蒋宏飞解释说,这里面的两个关键词就是批量化、个性化,原本他们是矛盾的,批量化意味着强调效率,而个性化意味着强调体验,这是个“两难”的问题。如果能逐步达到“数字化”,那么这个矛盾就可以得到不同程度的化解。


蒋宏飞说,在企业数字化中,非常核心的一块是"用户数字化"。用户数字化的终极追求莫不过人们耳熟能详的这些词:用户画像、用户分层、用户运营、千人千面等等。在教育场景下,就是个性化教学、个性化学习规划、个性化题目推荐等。


蒋宏飞表示,在目前主要的互联网商业模式中,在线教育服务的主流模式是双师直播大班课。在这种模式中,人的服务占很大比重,人与人的沟通占服务的很大比重。这是在线教育服务的主要特点。


在线教育服务中的“数字化挑战”


他说,在线教育服务场景下主要用户数据类型包括:打点行为类数据。这个是大家最常见的,是结构化的;第二类:评价类数据,这些数据有结构化,也有非结构化的;第三类:问卷类数据。这里面有一部分也会是开放式主观反馈,属于非结构化文本数据;第四类:服务沟通类数据。上课时和主讲/辅导老师以及其他同学的弹幕互动,和辅导老师以及客服的沟通等等。这些数据都是非结构化文本数据。


蒋宏飞表示,这所有数据中,非结构化文本数据大量存在与在线教育场景中,属于核心业务环节产生的数据,量大而且内容丰富。但这些数据的结构化处理对"数字化"意义重大,在技术上也是最具挑战的。


“非结构化数据的结构化,是全面数字化的最后一道障碍。”蒋宏飞说,在传统的数字化建设中,一般都会经过这几步:数据采集、数据治理、数据挖掘、数据分析、智能应用。在线上教育这种重“沟通服务”的场景里,文本结构化变成不可或缺的重要一环,介于数据治理和数据挖掘之间。而要做好文本数据的结构化,打通这个“数字化”的关键环节,就需要用 NLP 技术。



作业帮的 FTP 应用和实践


蒋宏飞表示,NLP 在工业界落地的两种主流技术方案粗粗划分下大致分为词式、语义式。FTP(Fast Text Processing)平台(编者注:借用了计算机领域的一个术语,实际上两者没有任何关系)对应的是后者。为什么要做这个平台?蒋宏飞说,远景目标是赋能公司业务运营数字化、精细化、智能化。具体考虑三点:一是业务的需求越来越多,越来越复杂,要的越来越着急;二是沉淀下来的数据和模型,希望能在后续不断复用起来;三是算法方面也不能一直写临时训练脚本,需要有个平台积累起来,让算法能力有个持续建设成长的承载。


蒋宏飞说,FTP 着重一个快字。为了实现这个目标,它的第一个策略就是优先处理头部典型数据。技术点就是主动学习+聚类,找到头部聚集的簇中,代表性的质心数据,将人工标注收益最大化;第二个策略是自训练,迭代起来,用高置信度复核数据充实训练数据,让模型尽快学习完善,并自动标注数据。



他说,FTP 里面涉及到的技术点非常丰富,应用场景也极为多样,包括从个性化服务支撑、用户专题研究、用户反馈深度挖掘再到质量保障辅助等等。作业帮在 FTP 中融合了很多结合业务场景的经验和微创新,也陆续产出了一些专利。


以质量保障辅助为例,作业帮的用户群广,很多都是偏远地区的孩子,网络质量、手机质量等等千差万别。事先很难能测的很全面,所以 FTP 也会支持质量保障部的同学做一些监测方面的数据打标辅助。这样就能帮助质量保障部的同学及时发现问题,以支持研发同学尽快调整优化保障使用不同机型的学生都能有流畅的听课体验。


“在线教育服务场景中的文本数据结构化是 NLP 应用的又一个广阔战场。”蒋宏飞表示,在线教育服务场景的支撑技术落地上,还面临很多开放性挑战,希望与大家一起去探索、实践、赋能。



QCon 是由 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5 年以上工作经验的技术团队负责人、机构师、工程总监、开发人员分享技术创新和实践。

2021-06-28 11:421169

评论

发布
暂无评论
发现更多内容

跟着卷卷龙一起学Camera--MIPI 01

卷卷龙

ISP camera 11月月更

TOGAF企业架构框架5-企业连续统一体

Marvin Ma

TOGAF 企业架构框架 架构分区 企业连续统一体 架构存储库

AI为方,产业为向:京东云数字人的技术攀爬

脑极体

人工智能’

跟着卷卷龙一起学Camera--延迟04

卷卷龙

ISP camera 11月月更

React循环DOM时为什么需要添加key

beifeng1996

React

EDAS 流量入口网关最佳实践

阿里巴巴云原生

阿里云 分布式 云原生 网关

盘点具备盈利潜力的几大加密板块,以及潜在的投资机会

BlockChain先知

前端面试那些题

loveX001

JavaScript

安全左中右·2022 XDR 网络安全运营新理念峰会圆满落幕

未来智安XDR SEC

网络安全 XDR扩展威胁检测响应

鱼骨图还能做需求优先级分析?

产品海豚湾

产品经理 产品设计 产品开发 需求分析 11月月更

iofod 支持生成 Electron 桌面应用

iofod jude

前端 低代码平台 iofod

Spark SQL基本架构

穿过生命散发芬芳

spark SQL 11月月更

一年前端面试打怪升级之路

loveX001

JavaScript

22道js输出顺序问题,你能做出几道

loveX001

JavaScript

Spring Boot「21」JPA 中的 Entity

Samson

Java hibernate Spring Boot 学习笔记 11月月更

数据的分组与计算

芯动大师

Python pandas 11月月更

研发效能|DevOps 已死平台工程永存带来的焦虑

laofo

DevOps 研发效能 持续交付 工程效率 平台工程

React的useLayoutEffect和useEffect执行时机有什么不同

beifeng1996

React

前端面试指南之React篇(一)

beifeng1996

React

官宣 | 袋鼠云获过亿元 C + 轮融资,深耕国产自研数字化技术与服务

袋鼠云数栈

跟着卷卷龙一起学Camera--Rolling Shutter

卷卷龙

ISP camera 11月月更

【MySQL】如何构建一个完整的MySQL知识体系(MySQL专栏启动)

小明Java问道之路

Java MySQL MySQL 数据库 11月月更

防守体系建设三部曲

阿泽🧸

11月月更 防守体系

AWS S3 bucket 的 ACL 控制

HoneyMoose

以开发之名|线上家装新美学——梦想之家,由你来定

HarmonyOS SDK

AR HMS Core

python小知识-set妙用

AIWeker

Python 人工智能 python小知识 11月月更

2022-11-01:给定一个只由小写字母和数字字符组成的字符串str。 要求子串必须只含有一个小写字母,数字字符数量随意。 求这样的子串最大长度是多少?

福大大架构师每日一题

算法 rust 福大大

SAP UI5 和 Angular 的函数防抖(Debounce)和函数节流(Throttle)实现原理介绍

汪子熙

前端开发 angular Fiori ui5 11月月更

融云钜惠来袭,新客尝鲜首月 2.7 折起,超值套餐 6 折起

融云 RongCloud

产品

MongoDB源码学习:mongod如何处理请求

云里有只猫

mongodb 源码学习

SAP UI5 BarcodeScannerButton 的初始化逻辑 - feature 检测,Cordova API 检测等逻辑

汪子熙

前端开发 Fiori SAP UI5 ui5 11月月更

探索在线教育场景下的数字化应用,作业帮NLP技术分享_语言 & 开发_作业帮技术团队_InfoQ精选文章