探索在线教育场景下的数字化应用，作业帮NLP技术分享

近日，QCon 全球软件开发大会在北京国际会议中心举行，150 余位演讲嘉宾现场分享最新技术创新和实践，为大家带来一场浩瀚的技术之旅。受大会邀请，作业帮中台产研中心蒋宏飞博士，在会上分享了 NLP((Natural Language Processing)技术在在线教育服务中的实践和创新。

数字化的终极追求是因材施教

"DT(Data technology)的本质就是可以批量化生产个性化的产品和服务。"对于这句互联网“名言”，蒋宏飞解释说，这里面的两个关键词就是批量化、个性化，原本他们是矛盾的，批量化意味着强调效率，而个性化意味着强调体验，这是个“两难”的问题。如果能逐步达到“数字化”，那么这个矛盾就可以得到不同程度的化解。

蒋宏飞说，在企业数字化中，非常核心的一块是"用户数字化"。用户数字化的终极追求莫不过人们耳熟能详的这些词：用户画像、用户分层、用户运营、千人千面等等。在教育场景下，就是个性化教学、个性化学习规划、个性化题目推荐等。

蒋宏飞表示，在目前主要的互联网商业模式中，在线教育服务的主流模式是双师直播大班课。在这种模式中，人的服务占很大比重，人与人的沟通占服务的很大比重。这是在线教育服务的主要特点。

在线教育服务中的“数字化挑战”

他说，在线教育服务场景下主要用户数据类型包括：打点行为类数据。这个是大家最常见的，是结构化的；第二类：评价类数据，这些数据有结构化，也有非结构化的；第三类：问卷类数据。这里面有一部分也会是开放式主观反馈，属于非结构化文本数据；第四类：服务沟通类数据。上课时和主讲/辅导老师以及其他同学的弹幕互动，和辅导老师以及客服的沟通等等。这些数据都是非结构化文本数据。

蒋宏飞表示，这所有数据中，非结构化文本数据大量存在与在线教育场景中，属于核心业务环节产生的数据，量大而且内容丰富。但这些数据的结构化处理对"数字化"意义重大，在技术上也是最具挑战的。

“非结构化数据的结构化，是全面数字化的最后一道障碍。”蒋宏飞说，在传统的数字化建设中，一般都会经过这几步：数据采集、数据治理、数据挖掘、数据分析、智能应用。在线上教育这种重“沟通服务”的场景里，文本结构化变成不可或缺的重要一环，介于数据治理和数据挖掘之间。而要做好文本数据的结构化，打通这个“数字化”的关键环节，就需要用 NLP 技术。

作业帮的 FTP 应用和实践

蒋宏飞表示，NLP 在工业界落地的两种主流技术方案粗粗划分下大致分为词式、语义式。FTP(Fast Text Processing)平台(编者注：借用了计算机领域的一个术语，实际上两者没有任何关系)对应的是后者。为什么要做这个平台？蒋宏飞说，远景目标是赋能公司业务运营数字化、精细化、智能化。具体考虑三点：一是业务的需求越来越多，越来越复杂，要的越来越着急；二是沉淀下来的数据和模型，希望能在后续不断复用起来；三是算法方面也不能一直写临时训练脚本，需要有个平台积累起来，让算法能力有个持续建设成长的承载。

蒋宏飞说，FTP 着重一个快字。为了实现这个目标，它的第一个策略就是优先处理头部典型数据。技术点就是主动学习+聚类，找到头部聚集的簇中，代表性的质心数据，将人工标注收益最大化；第二个策略是自训练，迭代起来，用高置信度复核数据充实训练数据，让模型尽快学习完善，并自动标注数据。

他说，FTP 里面涉及到的技术点非常丰富，应用场景也极为多样，包括从个性化服务支撑、用户专题研究、用户反馈深度挖掘再到质量保障辅助等等。作业帮在 FTP 中融合了很多结合业务场景的经验和微创新，也陆续产出了一些专利。

以质量保障辅助为例，作业帮的用户群广，很多都是偏远地区的孩子，网络质量、手机质量等等千差万别。事先很难能测的很全面，所以 FTP 也会支持质量保障部的同学做一些监测方面的数据打标辅助。这样就能帮助质量保障部的同学及时发现问题，以支持研发同学尽快调整优化保障使用不同机型的学生都能有流畅的听课体验。

“在线教育服务场景中的文本数据结构化是 NLP 应用的又一个广阔战场。”蒋宏飞表示，在线教育服务场景的支撑技术落地上，还面临很多开放性挑战，希望与大家一起去探索、实践、赋能。

QCon 是由 InfoQ 中国主办的综合性技术盛会，每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来，已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区，演讲嘉宾依据热点话题，面向 5 年以上工作经验的技术团队负责人、机构师、工程总监、开发人员分享技术创新和实践。

创作场景

探索在线教育场景下的数字化应用，作业帮 NLP 技术分享