2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

机器学习让电脑也能画世界名画

  • 2015-09-29
  • 本文字数:1344 字

    阅读完需:约 4 分钟

近日,德国图宾根大学的 Leon A. Gatys 等人研发出了一种基于深度神经网络的人工系统。该系统可以制作非常具有艺术气息的电脑图片,完成了电脑作画方面的一大突破。

画家一般通过非常高超的技巧把现实中的东西按照一定的风格进行抽象,来创造非凡的艺术品。以往,这种创造过程总是神秘而不可预知的。因而,机器无法自动完成图画,尤其是抽象画派作品的创作。然而,在目标或者人脸识别等领域,机器已经能够根据深度神经网络(Deep Neural Network,DNN)理论,很好的完成识别工作。Leon 等人所研发的系统试图解决这一难题。该系统使用了神经表示来分离和重新合并图画的内容和风格。它可以把一副图画的内容和另一副图画的风格结合在一起,创造出一个新的图片。以斯坦福校园的一张照片为例,该系统把著名画家梵高的《星空》的风格抽象出来,合并为了一张新的图片。

把该风格应用到不同的图片中,系统还可以给出很多有意思的结果。而且,算法还支持用户调整风格和内容分别占据的权重。这样,图片就可以在偏重原始内容和风格化之间进行变化。此外,用户还可以利用 -style_scale在提取风格特征之前调整风格图片的大小。由此,最终合成图片的风格化粒度也会不同。

该系统基本原理可以划分为内容提取和风格提取两个部分。在内容提取中,算法使用了深度神经网络中的卷积神经网络(Convolutional Neural Network,CNN)。卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。输入图像通过和若干滤波器进行卷积后产生相应的特征映射图。这些特征映射图中每组的几个像素再进行求和、加权值以及加偏置(bias),通过一个Sigmoid 函数得到下一层特征映射图。该过程依次进行,直到通过神经网络的所有层后,得到输出。在Leon 等人的研究中提到,随着图像通过CNN 中的多个层,图像内容越来越多的反应到特征映射图中。而网络中高层的特征响应就可以记为内容表示( content representation)。

在风格提取中,算法使用了原本用于获得纹理信息的特征空间。该特征空间基于神经网络中每一层的滤波响应,由这些响应之间的相关度所组成。通过包含多层网络的特征相关,算法获得了一个输入图像的多层表示——风格表示(style representation)然后,系统通过寻找同时符合内容表示和风格表示的图片,即可合并两张图画,制作出新的图画。

目前,该算法的 torch 实现已经共享到 GitHub 。用户在安装 torch7 loadcaffe 之后,需要运行sh models/download_models.sh脚本来下载 VGG 模型。然后,用户按照安装指导中的指示即可完成Ubuntu 系统中的安装。然后,用户输入 th neural_style.lua -style_image <image.jpg> -content_image <image.jpg>
命令,开始使用该算法来生成图像。此外,该实现还提供了-image_size(所产生图像的最大边像素数)、-gpu(所使用 GPU 从 0 开始编号的 ID)、-content_weight(内容重建部分的权重,默认为 5)等选项。这些选项可以优化转换过程、确定输出文件名以及 CNN 中的层名等,为用户提供更多的灵活性。


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-09-29 19:003651
用户头像

发布了 268 篇内容, 共 136.4 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

背完这套 Java 面试八股文,offer拿到手软

Geek_Yin

编程 程序员 java面试 Java面试题

郑州工程技术学院赴埃文科技开展访企拓岗促就业活动

郑州埃文科技

Java面试八股文大全(附各大厂面试真题及答案)

Geek_Yin

编程 程序员 java面试 Java面试题

鸿蒙仓颉语言开发教程:仓颉语言中的状态存储

幽蓝计划

“一代更比一代强”:现代 RAG 架构的演进之路

Baihai IDP

AI LLM 检索增强生成

5月 | 塞讯模拟攻击库更新汇总

塞讯科技

网络安全

一文就可搞清楚的HarmonyOS NEXT解锁模态页面的“真香”操作

程序员Feri

HarmonyOS NEXT

P4.81户外租赁LED显示屏全面解析

Dylan

LED LED display LED显示屏 市场 LED屏幕

最全的Java面试八股文合集

Geek_Yin

编程 程序员 java面试 Java面试题

家具工厂MES生产管理系统解决方案

万界星空科技

制造业 mes 万界星空科技mes 家具行业 家具mes

什么是Redis缓存穿透?redis面试题及答案乐分享(附面试题大全)

程序员高级码农

redis 程序员

Redis 数据恢复的月光宝盒,闪回到任意指定时间

百度Geek说

AI 本地化部署的详细方案

北京木奇移动技术有限公司

软件外包公司 AI技术应用 AI本地化部署

埃文科技智能数据引擎产品入选《中国网络安全细分领域产品名录》

郑州埃文科技

如何通过ETLCloud实现跨系统数据同步?

谷云科技RestCloud

MySQL 数据库 数据同步 ETL 数据集成

2025最新版Java面试八股文PDF

Geek_Yin

编程 程序员 java面试 Java面试题

昇腾NPU上基于MindIE服务的AIME和MATH500测评方案

小顺637

大模型 昇腾

中烟创新AI审核平台,打造烟草行业采购全链条合规管理新范式

中烟创新

华南会议|最新日程,2025 Altair区域技术交流会,报名火热进行中!

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

HTTP2.0 从原理到实践,保证把你治得服服帖帖!

左诗右码

AI本地化部署的流程

北京木奇移动技术有限公司

AI技术 软件外包公司 AI本地化

中科大、月之暗面等开源对话式语音合成模型 MoonCast;ChatGPT 发布「录音模式」,自动录音和生成会议纪要丨日报

声网

如何批量查询手机号码归属地,在线工具平台,可按省份分离、按城市分开、按号段分类、按移动联通电信来分别导出excel。

飞舞的键盘

Java基础八股文面试题总结+答案解析

Geek_Yin

编程 程序员 java面试 Java面试题

告别“算不清的账”,甲方安全的“ROI 之痛”有救了!

塞讯科技

rol

通义灵码+云效 DevOps MCP:通过云效工作项自动生成代码并提交请求

阿里巴巴云原生

阿里云 云原生 通义灵码 MCP

深度解读「高盛」人形机器人双研报:主流人形机器人公司梳理和商业化瓶颈(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

快手基础大模型团队7篇论文入选人工智能领域顶会ACL 2025

快手技术

acl 快手 论文解读 学术成果

DePIN的底层逻辑:让物理基础设施加速市场化

PowerVerse

加密货币 去中心化 算力 #区块链 DePIN

Vue3组件通信全攻略:多种方式详解+实战场景,轻松玩转复杂数据流!

量贩潮汐·WholesaleTide

JavaScript Vue 3

通义灵码+云效 DevOps MCP:通过云效工作项自动生成代码并提交请求

阿里云云效

阿里云 通义灵码 MCP

机器学习让电脑也能画世界名画_语言 & 开发_张天雷_InfoQ精选文章