写点什么

当 AI 遇见创作,会碰撞出怎样的火花?

  • 2021-09-19
  • 本文字数:3590 字

    阅读完需:约 12 分钟

当AI遇见创作,会碰撞出怎样的火花?

你一定见到过抖音有趣的互动特效,比如曾经的“甩狗头”、“控雨术”,如今的地标 AR 打卡等。贴合人体轮廓,准确识别特征,即时响应动作……这些技术能力你可能不会注意,但你一定对丝滑的体验和丰富有趣的玩法有所感受。


基于广泛的影响力,抖音背后的技术能力吸引了不少关注。AI 算法,在抖音背后的智能互动特效和智能视频编辑中起到了非常重要的作用。如何拥有抖音同款能力?如何能够让音视频产品能力促进业务增长?


抖音背后的技术支持平台火山引擎,在金秋 9 月举办系列增长沙龙,先后落地上海、深圳和北京,从技术、产品、应用和体验四大维度,剖析“智能互动特效和智能视频编辑”推动泛娱乐行业业务增长的逻辑。在北京站沙龙现场,我们看到了抖音产品逻辑、生态建设和技术能力的冰山一角。

不是再造一个“抖音”

2021 年 6 月,火山引擎在首次品牌发布会上,宣布将字节跳动积累的推荐算法、数据分析和人工智能等核心技术,通过火山引擎开放给企业客户。抖音同款技术能力的吸引力,引发业内热议。



在火山引擎增长沙龙北京站,火山引擎 AI 解决方案负责人骆怡航表示:火山引擎已经开放的支撑抖音的技术能力,并不是帮企业再造一个抖音,而是希望让企业通过运用抖音同款技术能力,在自己的企业应用中搭建互动场景。


目前,火山引擎作为字节跳动的企业级技术服务平台,AI 产品线以 AI 中台为底座,提供包括视觉、语音等八项基础能力,支撑上层智能体验套件,在产品层提出面向各行业的音视频解决方案,已经对外推出了 AI 大数据和视频云等产品,服务于金融证券、手机、汽车等行业。在内容创作方面,抖音和剪映已经成为上述技术能力名副其实的“代言人”。直播和短视频颠覆了内容创作的输入和输出方式,不止在泛娱乐行业,提高内容生产者和消费者身份转换频率,为行业提供优质的内容呈现方式。


在分享中,骆怡航多次提到了生态建设,他认为,提供技术产品仅仅搭建了当前场景,一个强大的生态可以持续激发产品创新。建立生态,滋养创意孵化。相比再“造”一个抖音,根据不同行业和具体的场景,建设因地制宜的内容生态,更有利于抖音同款能力展现最大化。

“抖音式”增长

那么如何拥有抖音同款能力?火山引擎提供了工具——智能创作套件。火山引擎智能互动特效总监范青谈道:“我们目前看到的两个最重要的视频生产方式就是直播和短视频,让消费者更容易进行开播,更容易进行内容的生产,是我们现在的产品需要做的事情,我们叫做智能创作的套件。” 



产品迭代跟着用户需求走,音视频的玩法随之多样。以美颜产品为例,审美趋势的改变让美颜产品的功能越来越细,超过 40 个调整维度反而让用户的使用门槛提高。为了让用户更容易上手,抖音产品开始调整产品方向为自动化优化,包括部分特征的保留和 AI 算法下的画质清晰稳定。如今,这些功能在智能创作套件上都有所体现。


火山引擎智能互动特效总监范青提出了深耕场景、数据驱动和落地为先,这意味着抖音互动特效需要做好场景适配、工程优化和特殊场景的落地,代表着抖音背后的技术积累,如近、中、远距离场景的算法灵敏度、低中高芯片的适配等。


在 AI 算法上,火山引擎做到了算法适配、工程优化和场景落地,其中,算法方面会针对近中远距离、全身半身、横竖屏、室内室外光照、实时非实时分别适配;工程优化方面会适配中低端芯片,提升机型覆盖率,移动端大屏主机端,平台模型差异化;场景落地方面,会基于场景解决垂直问题,如电商试穿试戴稳定性的关联等。


在特效引擎方面,火山引擎技术能力可以实现对 App、小程序、浏览器等多平台的支持,提供 CG 级特效玩法加速落地移动终端、GAN 类特效提升生产周期,以及持续发力攻克低端机型瓶颈。目前积累的智能特效包括 GAN、美妆、美颜、美体、贴纸特效、图像处理、虚拟形象等。在特效内容方面,火山引擎提供统一的特效素材平台管理、线上爆款监控以及商业务拓展收入空间等服务,通过持续上新特效玩法和更新工具,帮助内容生产者提高生产效率,进而完善内容生态。


“一个生态的形成,生产者和消费者之间的平衡、生产者的活跃度是内容生态最重要的部分。”范青表示,推荐算法落地的土壤是足够丰富的内容,只依赖 PGC 撑起内容丰富度有很大瓶颈。直播和短视频相较于图文,可以在单位时间内带来更多信息量,也更容易提高信息的被吸收程度。无论是 UGC 用户还是 PGC 用户,都有可能随时转换身份。“抖音式”增长就在用户身份在生产者和消费者之间转化的时候发生。



值得注意的是,版权问题是音视频行业如今广受关注的话题。在内容生产的链路中,内容形式有文字、图片和视频等,要求平台解决相应的版权问题。火山引擎智能视频编辑解决方案总监郭沣仪表示,AI 技术在内容层面提升创作效率的能力,火山引擎在这个层面解决了所有内容端的能力建设,也在持续解决版权问题。 



创维高级产品经理刘熙桐带来了火山引擎技术能力在创维的实践经验。她谈到,大屏电视行业已经步入了存量市场争夺的时代,中国电视行业已经从早期的基于硬件做性能优化,过渡到以内容生态和用户体验为核心的强交互时期。用户需求的大屏电视不只是电视基础功能,而是希望能够给生活带来更多改变。


在刘熙桐看来,当前大屏电视行业面临硬件趋同性严重、场景少、玩法少、交互体验有待进一步加强的现状,创维的应对方式是:多模态的人机交互,支持体感、手感、语音等交互方式;更多样的应用服务,借助人工智能与云计算等技术,实现大屏游戏、互动健身、视频通话、远程会议等服务。“数据集是骗不了人的”。在她看来,火山引擎在内容层面和技术层面的积累上有较大优势,工程优化效果和算法稳定性比较高。


“同样是屏幕,手机上能实现的,电视大屏也能实现。”刘熙桐表示。

非线形编辑器改变音视频创作方式

音视频智能编辑方式深入到生活中的方方面面,给人一种如今便捷的编辑方式的存在向来如此的错觉。事实并非如此。在传统的电影胶片存储音视频时代,当需要对内容进行编辑的时候,必须将胶片剪开再拼接上,才能完成剪辑工作。这种剪辑方式对原始胶片的改变是破坏性的,对使用者而言也十分不便。


这种编辑方式被称为线性编辑。如今,火山引擎提供的智能视频编辑方式为非线性编辑,可以实现多轨道、多端、协同进行视频编辑。所谓非线形编辑,指的是随着技术的发展,数字媒体时代的数字化存储音视频方式,通过计算机或者 App 随时可以对数字媒体素材进行剪辑工作,不会对原始资源产生破坏性改变。



字节跳动非线性编辑器(Non-linear edit)简称 NLE,是字节跳动团队推出的音视频编辑中间件,为音视频创作产品提供更加便捷的操作 API 和统一的草稿数据格式,在集成剪辑原子能力的基础上提供操作记录恢复等能力。据火山引擎智能视频编辑高级研发经理 Heaven 介绍,基于 NLE,用户可以方便地进行多端、多产品音视频作品二次创作和协同创作。


据他介绍,字节跳动非线形编辑器的优势在于:

  • 核心引擎经过亿级 DAU 产品验证,性能、稳定性可靠

  • 数据驱动模型设计,更轻量级接口调用,业务实现不费力

  • 原生撤销 / 重做 (redo/undo) 能力支持,省去业务方实现麻烦

  • 可扩展草稿协议,跨平台存储 / 恢复,轻松实现多端、多业务草稿打通和功能升级


Heaven 称,只要掌握 NLEModel、NLETrack、NLETrackSlot、NLESegment、NLEResourceNode 这 5 种数据模型,就可以通过不同组合,打造不同的复杂场景。



“NLEModel 可以理解为最外层的容器,我们在这个容器下进行一些模型的组合,在 Model 里面可以添加不同的轨道,也就是 NLETrack。在 Track 之内又可以添加视频片断,这个片断就是 TrackSlot。一条轨道是一个时间轴,不同的时间片断之内可能会承载不同的内容。NLETrackSlot 定义这个时间轴上的时间片断,比如 0 到 5 秒钟,通过 NLEsegment 和 Resoun 定义承载的信息。”他进一步解释。


传统的数据驱动模型,以事件或者命令驱动,通常先定好策略和接口功能的设定,调用方通过事件和命令进行调用,在现在来看就比较繁琐,也不利于拓展。因为一旦涉及增加功能,就会涉及很多改动。Heaven 谈到,基于这种考虑,火山引擎制定了一种数据驱动模型范式,不再定义功能,而是通过定义五种数据模型来进行组合和配置的使用,通过业务方向进行排列组合进而实现不同的功能,不仅解决了拓展性的问题,还解决的存储的问题,可以更方便的实现 redo/undo 的功能。


Heaven 谈到,对数据模型的封装,最终目的是为了简化字节跳动非线性编辑器 SDK 的使用方式,尽管目前已经做了很大程度上的简化,但真正实现复杂的编辑器,还是需要做非常多的工作。“我们下一步或者正在做的,是对更上层的业务组件进行封装,比如轨道编辑器,你可以直接拿到组件集成到你的产品里。我们会提供一些 UI 定制化的能力,针对不同客户的诉求提供不同层级的接入能力,还会结合 AI 的云服务和云渲染等比较高级的能力,提供更加智能化的创作能力,以及精品内容的生产消费能力。”Heaven 称,构建完整的服务体系,真正提供一站式解决方案,是火山引擎下一步想要实现的事情。

2021-09-19 12:005442

评论

发布
暂无评论
发现更多内容

python——自定义序列类

菜鸟小sailor 🐕

裳雨

GongTeng95

写作 写作平台

实践案例丨云连接CC实现跨区域多VPC与线下IDC Server互联

华为云开发者联盟

云服务 IDC

数字货币交易所源码开发,区块链交易系统搭建服务商

13530558032

活着

GongTeng95

如何进步神速

Sean

学习 个人成长

Spring Cloud 微服务实践(0) - 开篇闲话

xiaoboey

微服务 Spring Cloud Spring Boot Spring Framework

算法大赛评委亲授通关秘籍,报名倒计时!

易观大数据

USDT支付系统开发技术方案,数字货币承兑商支付

13530558032

大数据下单集群如何做到2万+规模?

华为云开发者联盟

大数据 集群

一次旅途

GongTeng95

架构师训练营大作业

叮叮董董

UML练习1-食堂就餐卡系统设计

博古通今小虾米

UML

Spring Cloud 微服务实践(2) - Gateway重试机制

xiaoboey

maven Spring Cloud Gateway modules 重试

直播倒计时|30分钟带你解锁“技术写作”新技能

有只小耳朵

技术 写作 直播 技术创作 RTC征文大赛

Python基础知识(二)

Python基础

Electronjs

Neil

Java 大前端 Electron 客户端开发

CentOS 7 安装 Python 3.7

wong

Python

2020年8月北京BGP机房网络质量评测报告

博睿数据

测试 机房 评测 排行榜 IDC

在线游戏,如何把握住1个亿以上的DAU?

博睿数据

运维 监控 AIOPS 系统 用户体验

Spring Cloud 微服务实践(1) - 用Initializr初始化

xiaoboey

Spring Cloud Eureka Gateway Hoxton

Java 基础语法

InfoQ_34a83d636158

血的教训!千万别在生产使用这些 redis 指令

redis 学习 编程 程序员

架构师训练营结业作业

superman

2020年7月云主机性能评测报告

博睿数据

云计算 测试 公有云 评测 排行榜

危与机并存 保险业如何走好线上线下业务并举转型之路?

博睿数据

运维 监控 保险 AIOPS 系统

不想搞Java了,4年经验去面试10分钟结束,现在Java面试为何这么难

Java架构师迁哥

LeetCode题解:622. 设计循环队列,使用数组,JavaScript,详细注释

Lee Chen

大前端 LeetCode

数字货币量化交易,量化对冲搬砖系统开发

13530558032

高速路二维码报警定位系统开发,二维码报警定位功能

13530558032

一次压缩引发堆外内存过高的教训

AI乔治

Java kafka JVM

当AI遇见创作,会碰撞出怎样的火花?_AI&大模型_张俊宝_InfoQ精选文章