快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

探索在线教育场景下的数字化应用,作业帮 NLP 技术分享

  • 2021-06-28
  • 本文字数:1782 字

    阅读完需:约 6 分钟

探索在线教育场景下的数字化应用,作业帮NLP技术分享

近日,QCon 全球软件开发大会在北京国际会议中心举行,150 余位演讲嘉宾现场分享最新技术创新和实践,为大家带来一场浩瀚的技术之旅。受大会邀请,作业帮中台产研中心蒋宏飞博士,在会上分享了 NLP((Natural Language Processing)技术在在线教育服务中的实践和创新。


数字化的终极追求是因材施教


"DT(Data technology)的本质就是可以批量化生产个性化的产品和服务。"对于这句互联网“名言”,蒋宏飞解释说,这里面的两个关键词就是批量化、个性化,原本他们是矛盾的,批量化意味着强调效率,而个性化意味着强调体验,这是个“两难”的问题。如果能逐步达到“数字化”,那么这个矛盾就可以得到不同程度的化解。


蒋宏飞说,在企业数字化中,非常核心的一块是"用户数字化"。用户数字化的终极追求莫不过人们耳熟能详的这些词:用户画像、用户分层、用户运营、千人千面等等。在教育场景下,就是个性化教学、个性化学习规划、个性化题目推荐等。


蒋宏飞表示,在目前主要的互联网商业模式中,在线教育服务的主流模式是双师直播大班课。在这种模式中,人的服务占很大比重,人与人的沟通占服务的很大比重。这是在线教育服务的主要特点。


在线教育服务中的“数字化挑战”


他说,在线教育服务场景下主要用户数据类型包括:打点行为类数据。这个是大家最常见的,是结构化的;第二类:评价类数据,这些数据有结构化,也有非结构化的;第三类:问卷类数据。这里面有一部分也会是开放式主观反馈,属于非结构化文本数据;第四类:服务沟通类数据。上课时和主讲/辅导老师以及其他同学的弹幕互动,和辅导老师以及客服的沟通等等。这些数据都是非结构化文本数据。


蒋宏飞表示,这所有数据中,非结构化文本数据大量存在与在线教育场景中,属于核心业务环节产生的数据,量大而且内容丰富。但这些数据的结构化处理对"数字化"意义重大,在技术上也是最具挑战的。


“非结构化数据的结构化,是全面数字化的最后一道障碍。”蒋宏飞说,在传统的数字化建设中,一般都会经过这几步:数据采集、数据治理、数据挖掘、数据分析、智能应用。在线上教育这种重“沟通服务”的场景里,文本结构化变成不可或缺的重要一环,介于数据治理和数据挖掘之间。而要做好文本数据的结构化,打通这个“数字化”的关键环节,就需要用 NLP 技术。



作业帮的 FTP 应用和实践


蒋宏飞表示,NLP 在工业界落地的两种主流技术方案粗粗划分下大致分为词式、语义式。FTP(Fast Text Processing)平台(编者注:借用了计算机领域的一个术语,实际上两者没有任何关系)对应的是后者。为什么要做这个平台?蒋宏飞说,远景目标是赋能公司业务运营数字化、精细化、智能化。具体考虑三点:一是业务的需求越来越多,越来越复杂,要的越来越着急;二是沉淀下来的数据和模型,希望能在后续不断复用起来;三是算法方面也不能一直写临时训练脚本,需要有个平台积累起来,让算法能力有个持续建设成长的承载。


蒋宏飞说,FTP 着重一个快字。为了实现这个目标,它的第一个策略就是优先处理头部典型数据。技术点就是主动学习+聚类,找到头部聚集的簇中,代表性的质心数据,将人工标注收益最大化;第二个策略是自训练,迭代起来,用高置信度复核数据充实训练数据,让模型尽快学习完善,并自动标注数据。



他说,FTP 里面涉及到的技术点非常丰富,应用场景也极为多样,包括从个性化服务支撑、用户专题研究、用户反馈深度挖掘再到质量保障辅助等等。作业帮在 FTP 中融合了很多结合业务场景的经验和微创新,也陆续产出了一些专利。


以质量保障辅助为例,作业帮的用户群广,很多都是偏远地区的孩子,网络质量、手机质量等等千差万别。事先很难能测的很全面,所以 FTP 也会支持质量保障部的同学做一些监测方面的数据打标辅助。这样就能帮助质量保障部的同学及时发现问题,以支持研发同学尽快调整优化保障使用不同机型的学生都能有流畅的听课体验。


“在线教育服务场景中的文本数据结构化是 NLP 应用的又一个广阔战场。”蒋宏飞表示,在线教育服务场景的支撑技术落地上,还面临很多开放性挑战,希望与大家一起去探索、实践、赋能。



QCon 是由 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5 年以上工作经验的技术团队负责人、机构师、工程总监、开发人员分享技术创新和实践。

2021-06-28 11:421078

评论

发布
暂无评论
发现更多内容

面试官一口气问了MySQL事务、锁和MVCC,

Java 程序员 后端

面试官再问分布式事务,求你看完这份至尊级分布式笔记,给年轻的面试官上一课

Java 程序员 后端

面试官:如何提升TCP三次握手的性能?(1)

Java 程序员 后端

面向对象设计的九大基本原则 (GRASP)

Java 程序员 后端

面试大厂一定离不开的——ThreadLocal,它的实现原理你知道吗

Java 程序员 后端

阿里面试官:HashMap 为什么是线程不安全的?

Java 程序员 后端

面试官:你如何利用-MySQL-Cluster-实现整体高可用?

Java 程序员 后端

MatrixDB 从 4018 个参赛项目中脱颖而出,荣获 HICOOL 全球创业大赛第三名!

YMatrix 超融合数据库

时序数据库 分布式时序数据库 Hicool

阿里面试官整理出面试必问:java面试核心知识原理+框架笔记

Java 程序员 后端

面试官最喜欢问的Spring Boot知识点整理【附解答】(下)

Java 程序员 后端

面向对象-抽象性思想(知识整理)

Java 程序员 后端

阿里面试官:你好,谈谈对Synchronized的理解?(一

Java 程序员 后端

靠谱,这是我见过最好的编程指南了!赶快收藏吧,错过大学就白上了!

Java 程序员 后端

震惊!2022 年秋招 Java 后端开发岗竟然一片红海!算法岗都不香了吗?

Java 程序员 后端

面试官问我什么是扩展自适应机制

Java 程序员 后端

Flink CDC 实时数据同步详细解析

五分钟学大数据

flink 11月日更

阿里面试确实严格,面了整整5轮,还好我技高一筹!

Java 程序员 后端

面试字节、阿里等大厂后,总结了今年的Java面试必问的微服务面试题(含答案)

Java 程序员 后端

面试官求你别再问我hook了

CRMEB

面试官:Java-线程池中的线程复用是如何实现的?

Java 程序员 后端

面试中常见的问题总结

Java 程序员 后端

面试前夕,你一定要先来看看阿里和京东都问些啥!(阿里+京东Java岗面试题概要

Java 程序员 后端

道与术丨华为云数据库战略启示录

华为云开发者联盟

数据库 opengauss 华为云 GaussDB 战略

面向对象知识点整理

Java 程序员 后端

面试官都爱问的Spring源码:Spring与Mybatis高级整合

Java 程序员 后端

阿里蚂蚁金服超全126道面试题,都会的话,你也能去面阿里了

Java 程序员 后端

阿里面试官:就说最后一遍,有关Spring这13点我们必问!

Java 程序员 后端

教你如何用Keras搭建分类神经网络

华为云开发者联盟

神经网络 keras 分类神经网络 MNIST 数字图像

面试官:多线程环境下,HashMap为什么会出现死循环?

Java 程序员 后端

震撼发布!阿里老兵亲手操刀微服务架构实战,整理出140个案例

Java 程序员 后端

面试太难?技术面考察太底层?二面被拒到收割阿里架构offer,复盘成功经历分享!

Java 程序员 后端

探索在线教育场景下的数字化应用,作业帮NLP技术分享_语言 & 开发_作业帮技术团队_InfoQ精选文章