写点什么

Antonino Rau 谈 Condé Nast 的自然语言处理和内容分析引擎

  • 2019-04-09
  • 本文字数:1962 字

    阅读完需:约 6 分钟

Antonino Rau谈Condé Nast的自然语言处理和内容分析引擎

从 2015 年开始,Conde Nast 创建了一个自然语言处理和内容分析引擎,以改进与其 22 个品牌所创建的内容相关的元数据。新系统使点击率提高了 30%。Conde Nast US 的软件工程师和技术经理 Antonino Rau 最近在一篇分为两部分的博文“Conde Nast的自然语言处理和内容分析”中描述了这个项目背后的动机、系统架构以及他们的 NLP 即服务系统 HAL 的发展。据介绍,他们的目标是用一个系统来取代简单的分类和标记,“自动‘逆向工程’他们的世界级编辑们在其中输入的知识。”


HAL 以电影《2001 太空漫游》中的 HAL-9000 命名,它集成了一个名为 Copilot 的专有内容管理系统(CMS)。HAL 使用 Java 构建,使用预训练或定制训练的模型运行一组分析程序,包括 JVM 内和 JVM 外模型。


HAL 的处理引擎基于一个可并行的有向无环图构建,用来分析和注解内容。它分析了内容的不同方面,提取出各种特征。例如,通过分析内容,它可以提取已知的人,然后用有关个人的链接资源注解响应。其他功能包括主题和分类或者地点和新闻故事。所有这些都带有附加的相关信息。


分析结果的整理受到了Uber Michelangelo的启发,其目标是改进和训练模型,并重复向 HAL 请求静态内容。


InfoQ 联系了Rau,了解他所做的有关 HAL 的工作。


InfoQ:您在博文中写道,“几年前,2015 年,我们决定进入下一个阶段”。你们为什么要改变它的工作方式?编辑之前是否手动为他们的文章添加标签?


Antonino Rau: 主要的动力是对编辑在不同情况下生成的内容进行自动洞察(主题、实体等等)。然后,这种内容智能将结合用户行为,构建片段、推荐和其他功能。是的,以前的编辑会手动标记。后续,他们仍然可以删除自动标签或从受控词汇表中手动添加标签。


InfoQ:您决定在 HAL 中构建自己的自然语言处理系统。您考虑过第三方的选项吗?如果考虑过,是什么让您选择在公司内部进行开发?


Rau: 是的,我们那会考察了第三方,但我们决定搭配使用定制和开源模型,因为 HAL 最初只需要面向英语,而对于该语言,有很多开源的、预训练的模型,我们只针对一种语言建立了自定义模型,对于 OSS 模型不支持的特性也很容易。最近,2018 年 11 月,Conde 决定将Conde Nast US和Conde Nast International纳入一个全球性平台,因此需要支持其他 8 种语言。我们正在研究将第三方模型集成到 HAL 中,加快 HAL 在所有 Conde 市场上、所有那些语言区域的推广。HAL 的好处是它还充当了一个防护层,因此,即使我们集成了供应商,由于它的架构,我们也可以很容易地在混合了 OSS、定制和供应商模型/分析程序的环境中进行操作,并且仍然具有相同的抽象和标准化输出。


InfoQ:您为什么选择了 Java?


Rau:运行 NLP 模型非常消耗 CPU 和内存。此外,从我们的基准、最好的功能和性能方面来看,上述 OSS 模型 Java 均可提供。最后,从 CPU 和内存密集型应用程序的系统性能和鲁棒性方面来看,Java 对于我们似乎是最好的选择。


InfoQ:HAL 的设计,尤其是有向无环图被抽象出来泛化使用令人印象深刻。在您决定采用这种方法之前,是否进行了多次迭代?您还考虑过其他的方法吗?


Rau:最初,这直接是个“管道和过滤器(pipe and filter)”方法,它使用了注解模型,正如博文中提到的文献所说的那样。但后来,我们使用的 JVM 外分析器越来越多,我们也越来越注意到,我们可以建立一个分析器图,通过互相传递注解来加速和并行化处理。


InfoQ:你们开发的东西有开源供别人使用的吗?


Rau:目前还没有,也许将来会有。


InfoQ:您提到你们内部使用了名为 Copilot 的 CMS。有自己的 CMS 对于实现 HAL 有帮助吗?或者,您觉得可以使用任何 CMS 来做吗?


Rau: Copilot 是基于一组名为 Formation Platform 的 API。我们意识到,HAL 的恰当位置是在产生内容的管道中,这样,自动丰富就成为 API 所提供的内容类型和内容模型的组成部分。但反过来也一样,HAL 的其中一个组件 Copilot-linker 是Entity-linker的实例,它会挖掘 Copilot 每天的内容类型,像餐馆、人物、场所等,“学习”编辑们输入系统的知识,自动从文章中提取这些实体,提取它们之间的联系。所以,我认为,在 Conde Nast 的上下文中,更一般来说是出版商的上下文中,内容分析和 NLP 需要与 CMS 高度协同。如果 CMS 是专有的,则更容易使其成为内部流的一部分,从而可以简化下游对这种自动丰富功能的使用,但我想也可以增加 OSS CMS,如果有恰当的扩展点的话。


InfoQ:通过 HAL 的流量是多少?


Rau:每月大约 3000 万请求。我们处理所有文本有变化的修订,有时候也处理不是来自 Condé的内容。


InfoQ:除了点击率之外,您还测量了哪些指标?HAL 对于这些指标是否有任何改进?


Rau:HAL 主题特性拥有数据科学团队的预测模型中的大多数预测特性,都已用于目标受众和消费者订阅偏好。


查看英文原文Q&A on Condé Nast’s Natural Language Processor and Content Analysis


2019-04-09 08:002356
用户头像

发布了 742 篇内容, 共 481.7 次阅读, 收获喜欢 1549 次。

关注

评论

发布
暂无评论
发现更多内容

龙蜥社区第四届理事大会圆满召开!中兴、英特尔、浪潮成为副理事长单位!龙蜥高级顾问团成立!

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

产学研用全覆盖!信通院、中兴通讯、复旦大学等 12 家厂商共同成立龙蜥社区系统运维联盟(SOMA)

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

【教程】苹果上架常见要求的有哪些?

雪奈椰子

59 人参会,探讨新年发展!龙蜥社区技术委员会、运营委员会会议圆满结束

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

龙年新目标!龙蜥安全联盟第三次月会圆满结束

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

ai制图软件有哪些?这5款自动生成绘画工具值得推荐!

彭宏豪95

人工智能 在线白板 办公软件 AIGC AI绘画

谈谈我对 AIGC 趋势下软件工程重塑的理解

阿里巴巴云原生

阿里云 云原生 AIGC

龙蜥系统运维联盟第二次会议圆满召开,深度探讨联盟发展方向

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

走进浪潮信息,深入探讨社区发展规划交流会圆满结束 | 理事长走进系列

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

【教程】一个比较良心的C++代码混淆器

雪奈椰子

🚀2023最新版克魔助手抓包教程(9) - 克魔助手 IOS 数据抓包

雪奈椰子

悦数图数据库推出 AI 知识图谱构建器及图语言生成助手

悦数图数据库

龙蜥操作系统荣登开放原子开源基金会“2023 生态开源项目”奖项榜单

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

龙蜥社区荣获 2023 年度龙芯“十佳基础软件合作伙伴”奖

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

龙智亮相2024国际集成电路展览会暨研讨会(IIC Shanghai),分享芯片研发及管理解决方案与技术实践

龙智—DevSecOps解决方案

芯片研发

苹果证书过期有什么影响

雪奈椰子

免费!API对接淘宝店铺啦!—操作超简易!

技术冰糖葫芦

API 接口

Databend x CubeFS:面向未来的企业级云原生数据存储与分析

Databend

Kubernetes与低代码开发应用:实现高效协同开发的新模式

不在线第一只蜗牛

Kubernetes 容器 低代码

提升质量透明度,动力电池企业的数据驱动生产实践 | 数据要素 × 工业制造

奇点云

奇点云 数据要素 工业制造

玄湾OS 重磅开源!专为容器安全运行的轻量级云原生操作系统

OpenCloudOS

Linux

视频教程:如何集成Perforce Helix Core与S3 存储,助力无限扩展储存空间

龙智—DevSecOps解决方案

版本控制 S3 版本控制软件 储存库

详解CloudBees CI,助力Jenkins用户顺利迁移并构建高效CI/CD平台

龙智—DevSecOps解决方案

ci 持续集成 CD

深入了解如何对IPA包进行有效的混淆处理

雪奈椰子

走进 Intel,深度探讨合作发展规划交流会圆满结束 | 理事长走进系列

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

走进龙芯中科交流会圆满结束!深入探讨未来合作规划 | 理事长走进系列

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

【教程】 iOS混淆加固原理篇

雪奈椰子

金融科技领袖汇聚:图技术+大模型驱动金融创新

悦数图数据库

图数据库

低代码开发与物联网应用:重塑未来技术生态

快乐非自愿限量之名

技术 低代码 物联网

轻松实现UniApp Xcode上传IPA无需Mac,appuploder一键上传助你高效开发!

雪奈椰子

龙蜥社区第 22 次运营委员会圆满结束!

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

Antonino Rau谈Condé Nast的自然语言处理和内容分析引擎_AI&大模型_Reda Hmeid_InfoQ精选文章