大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成

  • 2024-12-05
    北京
  • 本文字数:2591 字

    阅读完需:约 9 分钟

大小:1.30M时长:07:33
ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成



ECCV2024: Towards Reliable Advertising Image Generation Using Human Feedback

链接:https://arxiv.org/abs/2408.00418



摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能误导顾客,并需要大量人工成本进行检查。本文探讨了如何提高可用生成图像的比例。我们首先引入了一种多模态可信赖反馈网络(RFNet),用于自动检查生成的图像。将 RFNet 整合到一个循环过程——循环生成中,可以提高可用广告图像的数量。为了进一步提升生产效率,我们通过一种创新的一致性条件正则化方法,利用 RFNet 的反馈来微调扩散模型(RFFT)。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并提供了一种高效的生产过程,同时不牺牲视觉效果。我们还构建了一个包含超过一百万张由人工标注的生成广告图像的可信赖反馈一百万(RF1M)数据集,这有助于训练 RFNet 准确评估生成图像的可用性,并真实反映人工反馈。总的来说,我们的方法为广告图像生成提供了一个可信赖的解决方案。



一、背景及现状

吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。最近,通过结合先进的扩散模型(Stable Diffusion)和 ControlNet,可以为产品生成和谐的背景,同时保持商品细节不变。

尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,如下图所示,这些图片存在空间和尺寸不匹配、不显著以及形状幻觉等问题。





这些有缺陷的图片可能导致顾客对产品产生误解,进而带来不佳的购物体验,因此需要大量人工来检查生成的图像。这些缺陷限制了生成模型在广告图像生产中的广泛应用。因此,我们要解决的问题是如何建立一个可信赖的广告图像生成流程,以高可用率生成图像。



二、信赖反馈模型

一个自然的解决方案是利用生成过程中的随机性,反复生成图像直到获得可用的图像(循环生成)。为了替代人工检查,我们提出了一种新颖的信赖反馈网络(RFNet),充当人工检查员来评估生成的广告图像的可用性。由于仅依赖单一生成的图像,模型无法有效获得进行精确检查所需的关键知识,例如产品是什么以及产品如何出现在背景中。因此,RFNet 整合了多种辅助模态,以提供对判断不同不可用情况至关重要的信息。RFNet 的结构如下所示:





通过使用 RFNet 判别生成结果,可利用随机性提升可用率。我们将这种提升可用率的方法称之为循环生成,伪代码如下所示:





三、可信赖人类反馈

虽然循环生成大大增加了可用图像的数量,但因为生成模型本身能力有限,多次尝试会显著延长生成过程。利用人类反馈(RLHF)来增强扩散模型的能力提供了一种可行的选择,这些方法在提高生成图像的视觉质量方面已经取得显著结果。类似的,在训练完信赖反馈模型后,我们将其输出看作人类对于生成图片的评价,通过将其结果反传回生成模型来提升生成图片中可用的比例。该流程如下所示:







其中,yd 为一个 one-hot 向量,其中合格类别的概率为 1,而其他类别的概率为 0。oi 为生成图像输入给信赖反馈模型后得到的概率,N 为一次训练中样本的总数。所得到的梯度被反传至生成模型中,来使其朝着更高概率生成合格图像的方向优化。沿用 ControlNet 原有的设定,只有 ControlNet 部分参与梯度更新,而 Stable Diffusion 部分是不更新参数的。



尽管通过梯度反传微调能够提升合格样本出现的概率,然而由于图像可用率和美观度是对抗的目标,这使得提升图片的可用率会导致美观度的下降。例如,直接将商品放置于空白背景中将获得极低的 bad case 比例,然而这种方式将严重破坏图片的美感。如下图(a)所示,随着模型达到极高的图片可用率,商品的背景区域将产生美学崩塌的结果。





为了实现提升图片的可用比例并保持图片的美观,简单的方式是训练中加入 KL 损失约束,该损失可以保证模型的分布不偏离目标分布。利用该约束,可以使得模型在微调后的输出分布和微调前近似,从而达到不影响美观的结果。该过程可写作:





KL 损失约束的目的是为了保持图像不变,而 F_AC 是希望图像朝着可用率更高的方向改变,这样的对抗的目标难以产生双赢的结局。为了解决该问题,我们将重点从保持图像本身不变,迁移至输入文本条件的指导不变。由于在文生图模型中,文本内容和图像内容是高度相关的,因此我们提出了一种条件一致约束来保证文本条件不变。根据 classifier-free 的训练方法,可以推导出文本条件对图像生成过程的影响方向为:





为了保证图像可用率的梯度方向不影响文本条件的影响方向,我们提出了条件约束损失 L_CC 如下:





上图(b)显示了 L_CC 相对于 L_KL 的优势,其中 L_KL 希望逆转 F_AC 的梯度方向,而 L_CC 提供了一个双赢的策略,它保持了文本条件的梯度,同时允许模型朝着可用率更高的方向更新梯度。因此,最终微调生成模型的损失可以写作:





四、实验结果

(1)广告图像审核性能

如表 1 显示,RFNet 在所有指标上表现更优,突出了整合多模态信息和其有效结构的优势。我们进一步评估 RFNet 中各个组件的影响,结果如表 2 所示。实验表明,RFNet 中每个组件对最终 AP 有显著影响。





(2)广告图像可信赖性能

如表 3 所示,我们的 RFFT 相较其他方法获得了更高的可用率。“Ava”和“Human Ava”的相同趋势进一步证明了 RFNet 能够忠实反映人类反馈。如图 6 所示,循环生成(RG)通过多次尝试可以大幅提高可用图像的比例。由于我们模型拥有更强的生成能力,它需要更短的生产时间,这证明我们的方法提供了可靠且高效的解决方案。





如下图所示,我们对不同方法的美学质量进行了评估,所提出的方法在美学质量上可以与原始模型相媲美,这受益于所提出的条件一致约束。





(3)定性对比

下图展示了部分例子来说明我们的方法在提高可用率和生产效率方面的增强能力,同时保持视觉表现的稳定性。





(4)泛化性

为了评估我们方法的灵活性,我们考察了微调后的 ControlNet 在与各种 LoRA 和扩散模型权重整合时的通用能力。如表 4 所示,经过微调的 ControlNet 显著提高了不同 LoRA 和扩散模型权重的可用率。





Note:

欢迎大家交流与探讨,如有任何问题或建议,请随时联系:fengwei25@jd.com。

京东广告创意部门诚邀 AIGC/大模型领域人才加入,共同推动技术的进步和创新。欢迎大家踊跃投递简历,期待与您在京东相遇!


2024-12-05 11:307575

评论

发布
暂无评论
发现更多内容

出版社题库管理系统的开发

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

用友BIP 智能产品三连发,推动制造企业稳质量、降成本、提效率、增收入!

用友BIP

热门活动速递 | AI 原生应用开发实战营·深圳站

阿里巴巴云原生

阿里云 云原生

ArkUI-X 5.0.4 Release:跨平台开发的全新体验

坚果

鸿蒙 HarmonyOS 坚果派

秘密任务 2.0:如何利用 WebSockets + DTOs 设计实时操作

数据追梦人

利用大模型实现地理领域文档中英文自动化翻译

亚马逊云科技 (Amazon Web Services)

Spark on K8s 在vivo大数据平台的混部实战

vivo互联网技术

大数据 spark 容器化

出版社题库管理系统的功能

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

AI与智能客服:如何让AI为企业提供更高效、更人性化的客户服务?

天津汇柏科技有限公司

人工智能 智能客服 AI 人工智能

如何开拓亚洲加密货币市场?一文解析亚洲国家差异、用户行为及市场特征

TechubNews

加密市场

利用Apipost轻松实现用户充值系统的API自动化测试

数据追梦人

能否将扩散模型思想应用于 LLMs 领域?大型语言扩散模型(LLDM)详解

Baihai IDP

程序员 AI LLMs LLDM LLaDA

博睿数据受邀出席“AI助力湾区数智金融会议”,分享主题演讲

博睿数据

电商多平台聚合搜索API开发全攻略:淘宝/1688/某东一站式打通!

代码忍者

API接口工具

Featured.com收购HARO

财见

AI重构商品计划管理:时尚品牌决胜未来的四大核心能力

第七在线

深入研究:1688商品跨境属性API接口详解

tbapi

1688API 1688跨境代采 1688商品属性接口 1688跨境属性接口

出版社题库管理系统的技术架构

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

汇源与用友战略签约,共启果汁行业数智发展新纪元!

用友BIP

“全球金牌敏捷课程” · 5月10-11日CSM认证课程

ShineScrum

敏捷 敏捷教练 项目经理 CSM认证 CSM认证培训

质量管理中的IQC、PQC、FQC、OQC

积木链小链

质量管理 数字化 智能制造

内部聊天软件,BeeWorks-安全的企业内部通讯软件

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

TLM算法仿真5G毫米波手机天线和整机

思茂信息

5G 仿真 CST Studio Suite

出版社题库管理系统的技术难点

北京木奇移动技术有限公司

软件外包公司 出版社 题库系统开发

K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定

北京好雨科技有限公司

k8s rainbond 企业号 4 月 PK 榜 gpu 算力 DeepSeek R1 模型

乐言科技:云原生加速电商行业赋能,云消息队列助力降本 37%

阿里巴巴云原生

阿里云 云原生

【FAQ】HarmonyOS SDK 闭源开放能力 —Health Service Kit

HarmonyOS SDK

harmoyos

基于 PHP/Java 的淘宝 API 调用实践:从商品详情页 JSON 数据解析到结构化重构

代码忍者

淘宝API接口

一键部署 Dify + MCP Server,高效开发 AI 智能体应用

阿里巴巴云原生

在BeeWorks中,网盘和即时通讯如何互相集成?

BeeWorks

即时通讯 IM 企业级应用

“敏捷产品管理精进课程” 6月14-15日 · A-CSPO认证【提前报名特惠】

ShineScrum

敏捷 PO 敏捷教练 产品负责人 CSPO认证

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成_AI&大模型_京东零售技术_InfoQ精选文章