写点什么

探索在线教育场景下的数字化应用,作业帮 NLP 技术分享

  • 2021-06-28
  • 本文字数:1782 字

    阅读完需:约 6 分钟

探索在线教育场景下的数字化应用,作业帮NLP技术分享

近日,QCon 全球软件开发大会在北京国际会议中心举行,150 余位演讲嘉宾现场分享最新技术创新和实践,为大家带来一场浩瀚的技术之旅。受大会邀请,作业帮中台产研中心蒋宏飞博士,在会上分享了 NLP((Natural Language Processing)技术在在线教育服务中的实践和创新。


数字化的终极追求是因材施教


"DT(Data technology)的本质就是可以批量化生产个性化的产品和服务。"对于这句互联网“名言”,蒋宏飞解释说,这里面的两个关键词就是批量化、个性化,原本他们是矛盾的,批量化意味着强调效率,而个性化意味着强调体验,这是个“两难”的问题。如果能逐步达到“数字化”,那么这个矛盾就可以得到不同程度的化解。


蒋宏飞说,在企业数字化中,非常核心的一块是"用户数字化"。用户数字化的终极追求莫不过人们耳熟能详的这些词:用户画像、用户分层、用户运营、千人千面等等。在教育场景下,就是个性化教学、个性化学习规划、个性化题目推荐等。


蒋宏飞表示,在目前主要的互联网商业模式中,在线教育服务的主流模式是双师直播大班课。在这种模式中,人的服务占很大比重,人与人的沟通占服务的很大比重。这是在线教育服务的主要特点。


在线教育服务中的“数字化挑战”


他说,在线教育服务场景下主要用户数据类型包括:打点行为类数据。这个是大家最常见的,是结构化的;第二类:评价类数据,这些数据有结构化,也有非结构化的;第三类:问卷类数据。这里面有一部分也会是开放式主观反馈,属于非结构化文本数据;第四类:服务沟通类数据。上课时和主讲/辅导老师以及其他同学的弹幕互动,和辅导老师以及客服的沟通等等。这些数据都是非结构化文本数据。


蒋宏飞表示,这所有数据中,非结构化文本数据大量存在与在线教育场景中,属于核心业务环节产生的数据,量大而且内容丰富。但这些数据的结构化处理对"数字化"意义重大,在技术上也是最具挑战的。


“非结构化数据的结构化,是全面数字化的最后一道障碍。”蒋宏飞说,在传统的数字化建设中,一般都会经过这几步:数据采集、数据治理、数据挖掘、数据分析、智能应用。在线上教育这种重“沟通服务”的场景里,文本结构化变成不可或缺的重要一环,介于数据治理和数据挖掘之间。而要做好文本数据的结构化,打通这个“数字化”的关键环节,就需要用 NLP 技术。



作业帮的 FTP 应用和实践


蒋宏飞表示,NLP 在工业界落地的两种主流技术方案粗粗划分下大致分为词式、语义式。FTP(Fast Text Processing)平台(编者注:借用了计算机领域的一个术语,实际上两者没有任何关系)对应的是后者。为什么要做这个平台?蒋宏飞说,远景目标是赋能公司业务运营数字化、精细化、智能化。具体考虑三点:一是业务的需求越来越多,越来越复杂,要的越来越着急;二是沉淀下来的数据和模型,希望能在后续不断复用起来;三是算法方面也不能一直写临时训练脚本,需要有个平台积累起来,让算法能力有个持续建设成长的承载。


蒋宏飞说,FTP 着重一个快字。为了实现这个目标,它的第一个策略就是优先处理头部典型数据。技术点就是主动学习+聚类,找到头部聚集的簇中,代表性的质心数据,将人工标注收益最大化;第二个策略是自训练,迭代起来,用高置信度复核数据充实训练数据,让模型尽快学习完善,并自动标注数据。



他说,FTP 里面涉及到的技术点非常丰富,应用场景也极为多样,包括从个性化服务支撑、用户专题研究、用户反馈深度挖掘再到质量保障辅助等等。作业帮在 FTP 中融合了很多结合业务场景的经验和微创新,也陆续产出了一些专利。


以质量保障辅助为例,作业帮的用户群广,很多都是偏远地区的孩子,网络质量、手机质量等等千差万别。事先很难能测的很全面,所以 FTP 也会支持质量保障部的同学做一些监测方面的数据打标辅助。这样就能帮助质量保障部的同学及时发现问题,以支持研发同学尽快调整优化保障使用不同机型的学生都能有流畅的听课体验。


“在线教育服务场景中的文本数据结构化是 NLP 应用的又一个广阔战场。”蒋宏飞表示,在线教育服务场景的支撑技术落地上,还面临很多开放性挑战,希望与大家一起去探索、实践、赋能。



QCon 是由 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5 年以上工作经验的技术团队负责人、机构师、工程总监、开发人员分享技术创新和实践。

2021-06-28 11:421227

评论

发布
暂无评论
发现更多内容

接口测试进阶接口脚本使用—apipost(预/后执行脚本)

Xd

Java 接口测试

shell运算详解,看这一篇就够了!

Albert Edison

Linux centos 运维 shell脚本编程 8月月更

【C#】WCF和TCP消息通信练习,实现群聊功能

南蓬幽

签约计划第三季 8月月更

测试开发【Mock 平台】08 开发:项目管理(四)编辑功能和Component抽离

MegaQi

8月月更

每日一R「03」Borrow 语义与引用

Samson

8月月更 ​Rust

直播回顾|多云时代,如何建设企业级云管理平台?(附建设指南下载)

BoCloud博云

云计算 容器 云平台 云管理

HarmonyOS自动化测试框架—Hypium

HarmonyOS开发者

HarmonyOS

从Delta 2.0开始聊聊我们需要怎样的数据湖

网易数帆

大数据 数据湖 Arctic 湖仓一体

搭载2.8K 120Hz OLED华硕好屏 无畏Pro15 2022锐龙版屏开得胜

科技热闻

企业即时通讯是什么?可以应用在哪些场景?

BeeWorks

从企业的视角来看,数据中台到底意味着什么?

BeeWorks

What's new in dubbo-go-pixiu 0.5.1

apache/dubbo-go

dubbogo Dubbo3 Dubbo网关

6月各手机银行活跃用户较快增长,创半年新高

易观分析

数据分析 金融 电子银行

120Hz OLED拒绝“烧屏”!华硕无双全能轻薄本

科技热闻

什么是企业知识库?有什么作用?如何搭建?

金陵老街

vue cli 知识库 spring-boot

云渲染的应用正在扩大,越来越多的行业需要可视化服务

Finovy Cloud

云渲染 GPU渲染

机器学习模型验证:被低估的重要一环

澳鹏Appen

人工智能 机器学习 模型开发 模型开发训练 模型验证

Java System.lineSeparator 方法

HoneyMoose

RocketMQ整体架构与基本概念

急需上岸的小谢

8月月更

【接入指南 之 直接接入】手把手教你快速上手接入HONOR Connect平台(下)

荣耀开发者服务平台

手机 新手指南 安卓 荣耀 honor

开源一夏 | 提高代码可重用性,减少重复劳动--手把手带你实现Python自定义模块并上传到pypi,贡献自己创造的轮子为所有人使用,让Python开发更加简单

迷彩

Python 开源 签约计划第三季 8月月更 自定义模块

产品说明丨Android端使用MobPush快速集成方法

MobTech袤博科技

android Android Studio 集成 mobpush

MSE 治理中心重磅升级-流量治理、数据库治理、同 AZ 优先

阿里巴巴云原生

数据库 阿里云 微服务 云原生 限流

网络可观测性:让您的网络监控更上一层楼|TechGenix

观测云

兼具外观、性能、屏幕!华硕灵耀X 14火热抢购中

科技热闻

开源一夏 | mysql5.7 安装部署 -二进制安装

zhangpfly

MySQL 开源 MySQL 运维 #开源 8月月更

AIRIOT答疑第8期|AIRIOT的金字塔服务体系是如何搞定客户的?

AIRIOT

低代码 物联网 低代码,项目开发

选择是公有云还或是私有云,这很重要吗?

BeeWorks

CEO对今天的CIO们真正的要求是什么?

BeeWorks

RocketMQ 消息集成:多类型业务消息——定时消息

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列

Apache DolphinScheduler 3.0.0 正式版发布!

白鲸开源

海豚调度 DolphinScheduler 调度器 版本发布

探索在线教育场景下的数字化应用,作业帮NLP技术分享_语言 & 开发_作业帮技术团队_InfoQ精选文章