写点什么

如何使用半监督学习为结构化数据训练出更好的深度学习模型

  • 2020-10-22
  • 本文字数:2368 字

    阅读完需:约 8 分钟

如何使用半监督学习为结构化数据训练出更好的深度学习模型

本文最初发表于 Towards Data Science 博客,经原作者 Youness Mansar 授权,InfoQ 中文站翻译并分享。


众所周知,深度学习在应用于文本、音频或图像等非结构化数据时效果很好,但在应用于结构化或表格化数据时,深度学习有时会落后于其他机器学习方法,如梯度提升等。在本文中,我们将使用半监督学习来提高深度神经模型在低数据环境下应用于结构化数据时的性能。我们将展示通过使用无监督的预训练,可以使神经模型的性能优于梯度提升。


本文是基于以下两篇论文:



我们实现了一个类似于 AutoInt 论文中提出的深度神经结构,使用了多头自注意力和特征嵌入。预训练部分取自 TabNet 的论文。

方法说明

我们将处理结构化数据,这意味着可以将数据写成具有列(数字、分类、序号)和行的表。我们还假设我们有大量的未标记样本,可以用于预训练,以及少量的标记样本,可用于监督学习。在接下来的实验中,我们将模拟这个环境来绘制学习曲线,并在使用不同大小的标记集时对该方法进行评估。

数据准备

让我们用一个例子来描述在将数据提供给神经网络之前我们是如何准备数据的。



在这个例子中,我们有三个样本和三个特征 {F1,F2,F3} 和一个目标。F1 是分类特征,而 F2 F3 是数字特征。


我们将为 F1 的每个模态 X 创建一个新特征 F1_X,如果 F1==X,则为其赋值 1,否则等于 0。


转换后的样本将写入一组 (Feature_Name, Feature_Value)


例如:


第一个样本 → {(F1_A, 1), (F2, 0.3), (F3, 1.3)}


第二个样本 → {(F1_B, 1), (F2, 0.4), (F3, 0.9)}


第三个样本 → {(F1_C, 1), (F2, 0.1), (F3, 0.8)}


特征名称将被馈送到嵌入层,然后与特征值相乘。

模型:

这里使用的模型是一个多头注意力块序列和逐点前馈层。在训练时,我们也使用池化的注意力跳过连接。多头注意力模块允许我们对特征之间可能存在的交互进行建模,而池化的注意力跳过连接允许我们从一组特征嵌入中获得单个向量。


预训练

在预训练步骤中,我们使用完整的未标记数据集,输入特征的损坏版本,并训练模型来预测未损坏的特征,类似于在去噪自动编码器中所做的操作。

监督式训练

在训练的监督部分,我们在编码器部分和输出端之间添加跳过连接,并尝试预测目标。


实验

在接下来的实验中,我们将使用四个数据集,其中两个用于回归,两个用于分类。


  • Sarco:有大约 5 万个样本,21 个特征和 7 个连续目标。

  • Online News:有 4 万个左右的样本,61 个特征和 1 个连续目标。

  • Adult Census:有大约 4 万个样本、15 个特征和 1 个二元目标。

  • Forest Cover:有大约 50 万个样本,54 个特征和 1 个分类目标。


我们将比较一个预训练神经模型和一个从零开始训练的神经模型,将重点关注地数据状态下的性能,这意味着几百到几千个标记样本。我们还将于一个流行的名为lightgbm的梯度提升实现进行比较。

Forest Cover:

Adult Census:


对于这个数据集,我们可以看到,如果训练集小于 2000,那么预训练是非常有效的。

Online News:

对于 Online News 数据集,我们可以看到,预训练神经网络是非常有效的,甚至在所有样本大小为 500 或更大的情况下都超过了梯度提升。



对于 Sarco 数据集,我们可以看到,预训练神经网络是非常有效的,甚至在所有样本大小的情况下超过了梯度提升。


旁注:用于重现结果的代码

重现结果的代码可以在这里找到:


https://github.com/CVxTz/DeepTabular


使用这段代码,你可以很轻松地训练分类或回归模型:


import pandas as pdfrom sklearn.model_selection import train_test_splitfrom deeptabular.deeptabular import DeepTabularClassifierif __name__ == "__main__":data = pd.read_csv("../data/census/adult.csv")train, test = train_test_split(data, test_size=0.2, random_state=1337)target = "income"num_cols = ["age", "fnlwgt", "capital.gain", "capital.loss", "hours.per.week"]cat_cols = ["workclass","education","education.num","marital.status","occupation","relationship","race","sex","native.country",]for k in num_cols:mean = train[k].mean()std = train[k].std()train[k] = (train[k] - mean) / stdtest[k] = (test[k] - mean) / stdtrain[target] = train[target].map({"<=50K": 0, ">50K": 1})test[target] = test[target].map({"<=50K": 0, ">50K": 1})classifier = DeepTabularClassifier(num_layers=10, cat_cols=cat_cols, num_cols=num_cols, n_targets=1,)classifier.fit(train, target_col=target, epochs=128)pred = classifier.predict(test)classifier.save_config("census_config.json")classifier.save_weigts("census_weights.h5")new_classifier = DeepTabularClassifier()new_classifier.load_config("census_config.json")new_classifier.load_weights("census_weights.h5")new_pred = new_classifier.predict(test)
复制代码

结论

在计算机视觉或自然语言领域,无监督预训练可以提高神经网络的性能。在本文中,我们展示了它在应用于结构化数据时也能起作用,使其在低数据环境与其他机器学习方法(如梯度提升)具有竞争力。


作者简介:


Youness Mansar,供职于 Fortia Financial Solutions 的数据科学家。巴黎中央理工学院(Ecole Centrale Paris)应用数学硕士学位和巴黎-萨克雷高等师范学校(École normale supérieure Paris-Saclay)机器学习硕士。作为 Fortia 的数据科学家,曾参与过多个涉及自然语言处理和深度学习的项目。


原文链接:


https://towardsdatascience.com/training-better-deep-learning-models-for-structured-data-using-semi-supervised-learning-8acc3b536319


2020-10-22 09:002856
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 609.3 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

RAG 分块策略:从原理到实战优化,喂饭级教程不允许你踩坑

京东科技开发者

2025开放原子开发者大会,openFuyao绘就智算集群生态新蓝图

openFuyao

一场同济大学 MBA 项目的 AI 决策思维实战:用数智的力量赋能管理决策

ModelWhale

人工智能 MBA 同济大学

Pulsar Developer Day 2025 | 北京到底有谁在啊?!?!?!

AscentStream

活动 消息队列 pulsar

智算新赛季开场!英特尔携生态伙伴打造算力“全明星阵容”

科技经济

Kuscia 1.1.0 发布:新增带宽调度、Envoy 粘性会话与全面安全升级

隐语SecretFlow

隐私计算 调度 ;开源

事件关联分析提升事件检测能力

运维有小邓

日志分析 日志管理 日志关联 日志收集

微信留言互动奖励:公众号引流变现神器,激活粉丝互动新玩法

微擎应用市场

A²B™ 2.0:音响系统升级,汽车变身为"第三空间"

财见

《国际AI安全报告》第二版关键更新发布

财见

Docker 性能调优

俞凡

性能调优

如何用AI工具提升办公效率?4个隐藏使用技巧盘点!

职场工具箱

人工智能 效率 在线白板 办公软件 AI工具

JoyAgent 荣获2025开放原子基金会 “《人工智能》开源先锋项目” 称号

京东科技开发者

AI 全过程教学系统:从产品视角看技术如何重塑学习

上海拔俗

智能测试新纪元:AI驱动的Java单元测试生成技术实践

飞算JavaAI开发助手

越客会员管理系统:一站式会员运营解决方案

微擎应用市场

漫格家政养老陪护系统:多端协同的智能服务解决方案

微擎应用市场

GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场

SEAL安全

大模型推理 GPU集群 vLLM Sglang 高性能推理

PFAI宣布启动全新战略,拓展其智慧农业创新平台

财见

新闻宣传 AI 助手:给内容创作装个 “智能加速器”

上海拔俗

Agentic 应用落地必看!手把手搭建 Dify 全链路可观测系统

阿里巴巴云原生

阿里云 云原生 可观测

数字藏品 NFT 系统的线上运营

北京木奇移动技术有限公司

NFT 数字藏品 软件外包公司

AI编程工具深度评测:五款主流产品如何选择?飞算JavaAI表现惊艳

飞算JavaAI开发助手

企业级Java应用现代化指南:框架迁移的智能解决方案与架构演进策略

飞算JavaAI开发助手

漫格父母帮交友系统:中老年社交与征婚的一站式解决方案

微擎应用市场

昇腾生态硬核赋能!上交大攻克超长上下文推理难题,性能大幅跃升

新消费日报

用“分区”来面对超大数据集和超大吞吐量

京东科技开发者

​YashanDB V23.5 发布:YAC共享集群全面迈向规模化商用

极客天地

微服务架构治理新范式:AI驱动的依赖关系智能解析与优化

飞算JavaAI开发助手

如何使用半监督学习为结构化数据训练出更好的深度学习模型_AI&大模型_Youness Mansar_InfoQ精选文章