写点什么

用于多文本分类的孪生和双 BERT

  • 2020-05-28
  • 本文字数:1844 字

    阅读完需:约 6 分钟

用于多文本分类的孪生和双BERT

本文最初发表在 Medium 博客,经原作者 Marco Cerliani 授权,InfoQ 中文站翻译并分享。


本文介绍了在模型中插入 Transformer 的不同方法。


人们对自然语言处理的不断研究催生了各种预训练模型的发展。在各种任务(如文本分类、无监督的主题建模和问题解答等)的最新结果方面,通常都有越来越多的改进,这是一个典型的现象。


最大的发现之一是在神经网络架构中采用了注意力机制(attention mechanics)。这种技术是所有称为 Transformer 的网络的基础。它们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到学习向量中。


作为数据科学家,我们可以产生并使用许多 Transformer 架构来对我们的任务进行预测或微调。在本文中,我们尽情享受经典的 BERT,但同样的推理也可以应用到其他所有的 Transformer 架构中。我们的研究范围是在双(dual)架构和孪生(siamese)架构中使用 BERT,而不是将其作为多文本输入分类的单一特征提取器。

数据

我们从 Kaggle 收集了一个数据集:News Category Dataset(新闻分类数据),它包含了 2012 年到 2018 年从 HuffPost 获得的大约 20 万条新闻标题。我们的范围是根据两种不同的文本来源对新闻文章进行分类:标题和简短描述。总共有 40 多条不同类型的新闻。为简单起见,并考虑到我们工作流的计算时间,因此我们只使用了 8 个类的子组。


我们不应用任何种类的预处理清晰;我们要让 BERT 来“完成所有的魔法”。我们的工作框架是 TensorFlow 和强大的 Huggingface Transformer 库。更详细地说,我们利用“裸”BERT 模型 Transformer,它输出原始的隐藏状态,而且上面没有任何特定头。它可以像 TensorFlow 模型子类一样访问,并且可以很容易地将其引入我们的网络架构中进行微调。

单 BERT

作为第一个竞争者,我们引入了一个单 BERT 架构。它只接受一个文本输入,这是我们两个文本源连接的结果。这就是常态:任何模型都可以接受连接特性的输入。对于 Transformer 来说,将输入与特殊特征符(special tokens)相结合提升了这一过程。


BERT 需要特定格式的输入数据:有特殊的特征符来标记句子/文本源的开头([CLS] [SEP])。同时,标记化涉及到将输入文本分割成词汇库中可用的特征符列表。词汇表外的单词用 WordPiece 技术进行处理;其中一个单词被逐步拆分成属于词汇表的子词。这一过程可以通过 Huggingface 预训练的词法分析器(Tokenizer)轻松完成,我们只需注意做好 padding 即可。


我们以每个文本源的三个矩阵(token、mask、sequence id)结束。它们作为 Transformer 的输入。在单 BERT 的情况下,我们只有一个矩阵元祖。这是因为我们同时将两个文本序列传递给词法分析器,这两个文本序列会自动连接起来(用 [SEP] 标记)。


我们的模型架构非常简单:将上面构建的矩阵直接馈入 Transformer。最后,通过平均池操作减少了 Transformer 的最终隐藏状态。概率分数是由最后致密层计算出来的。



在我们的测试数据上,我们的单 BERT 达到了 83% 的准确率。性能报告请见下面的混淆矩阵中。


双 BERT

我们的第二个架构可以定义为双 BERT,因为它使用了两个不同的 Transformer。它们有相同的组成,但使用了不同的输入进行训练。第一个 Transformer 接收新闻标题,而另一个接受简短文本描述。输入被编码为始终产生两个矩阵(token、mask 和 sequence id),每个输入都有一个。对于这两个数据源,我们的 Transformer 的最终隐藏状态都是通过平均池来减少的。它们链接在一起,并通过一个完全连接层。



通过这些设置,双 BERT 测试数据上可以在达到 84% 的准确率。


孪生 BERT

我们的最后一种模型是一种孪生式架构。它可以这样定义,因为两个不同的数据源在同一个可训练的 Transformer 架构中同时传递。输入矩阵与双 BERT 的情况相同。对于两个数据源,我们的 Transformer 的最终隐藏状态是通过平均操作进行池化的。所得到的的结果,在一个完全连接层中传递,该层将它们进行组合并产生概率分数。



在我们的测试数据上,孪生式架构达到了 82% 的准确率。


总结

在本文中,我们应用 BERT 架构进行了多类分类任务。我们这个实验的附加价值在于,它以各种方式使用 Transformer 来处理多个输入源。我们从一个源中的所有输入的经典连接开始,然后在输入模型时保持文本输入的分离。提出的双 BERT 和孪生变体能够获得良好的性能。因此,它们可以被认为是经典单 Transformer 架构的良好替代方案。

参考资料


作者介绍:


Marco Cerliani,Lutech 统计学家、黑客和数据科学家。


原文链接


https://sourl.cn/qy6Diz


2020-05-28 15:052369

评论

发布
暂无评论
发现更多内容

RAR Extractor Max for Mac - 轻松解压,高效管理

iMac小白

IT外包能在企业上云时提供什么帮助?

Ogcloud

IT IT外包 IT外包公司 IT外包服务 IT外包服务商

美国站群服务器租用攻略:选择稳定高效的多站点管理服务

一只扑棱蛾子

站群服务器

ETL工具中JSON格式的转换方式

RestCloud

json 数据处理 ETL

程序员必备的8款工具软件,第5款简直绝了!

高端章鱼哥

Analyzing Efficiency:QCN6224 vsQCN6274 WiFi7 chipset

wallyslilly

依赖Windows环境的CAD/CAE/CAM等软件如何在信创环境下过渡使用?

点量实时云渲染

信创 云桌面 云渲染 实时云渲染 国产信创

一键自动化博客发布工具,用过的人都说好(阿里云篇)

程序那些事

工具 程序那些事 自动发布

大模型和传统ai的区别

悦数图数据库

「活动预告」PolarDB走进青岛,邀请您一起畅游琴岛山海春韵,共话数据生态创新

阿里云数据库开源

数据库 阿里云 开源 Polar polarDB

SD-WAN实现全球应用加速

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

浅析MySQL代价模型:告别盲目使用EXPLAIN,提前预知索引优化策略

京东零售技术

后端 MySQL、

低代码与云原生的技术解析:赋能企业数字化转型

不在线第一只蜗牛

云原生 低代码

ExpressScribe PRO for Mac(易于使用的专业转录软件)v13.11注册激活版

iMac小白

Express Scribe下载 Express Scribe注册版 Express Scribe激活版

在 Postman 中设置和使用 Mock Server

Liam

程序员 前端 Postman Mock MockServer

程序员必备的7大神器,效率飞起!

秃头小帅oi

华为云开发者桌面全新发布CodeArts IDE for Python,极致优雅云原生开发体验

华为云PaaS服务小智

ide 软件开发 华为云

活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约!

Apache Flink

大数据 flink

京东按关键字搜索商品API(jd.item_search)返回值全面解析

技术冰糖葫芦

API 编排 API 文档 API 策略 pinduoduo API

AIGC技术的力量:探索其原理与应用的无限可能

EquatorCoco

人工智能 AIGC

Kafka 业务日志采集最佳实践

观测云

kafka 日志分析

HTTPS 是如何进行安全传输的 ?

EquatorCoco

https 哈希算法 密钥

SecureFX for Mac - 远程文件管理的首选工具

iMac小白

SecureFX下载 SecureFX破解版

智能商品计划系统:引领未来零售业的革新之路

第七在线

@Async异步失效的9种场景

不在线第一只蜗牛

Java JVM 异步 开发语言

分布式数据库有哪几种

悦数图数据库

图数据库

Cheetah3D for mac(3D渲染建模软件)v8.1激活版

iMac小白

Cheetah3D注册机 Cheetah3D 8新功能 Cheetah3D8下载 Cheetah3D破解版

XSKY SDS 6.4 重磅更新:NFS 性能飙升 3 倍,对象多站点等 10 多项功能强势升级

XSKY星辰天合

对象存储 软件定义存储 XSKY 星辰天合

对C语言符号的一些冷门知识运用的剖析和总结

快乐非自愿限量之名

C# C语言

【论文速读】|针对模糊驱动生成的提示性模糊测试

云起无垠

数据可视化与低代码开发应用:开启智能时代新篇章

快乐非自愿限量之名

低代码 数据可视化

用于多文本分类的孪生和双BERT_AI&大模型_Marco Cerliani_InfoQ精选文章