写点什么

生产、交互、消费全链路升级,开启“三智”视频新时代

  • 2024-11-11
    北京
  • 本文字数:4087 字

    阅读完需:约 13 分钟

大小:2.06M时长:11:58
生产、交互、消费全链路升级,开启“三智”视频新时代

谷歌在 2015 年曾预测:“未来互联网世界 80%的内容将是以视频形式呈现的。”


未来已来!十年前的预判在今天几乎全部实现。不仅如此,视频在工作生活中的渗透率不断提升,并且过去一年中又有很多全新视频体验来到我们身边:


AIGC 可以快速生产短剧,抖音联合博纳影业出品的《三星堆:未来启示录》一上线,便获得了惊人的 1.4 亿次播放量;


奥运会期间裸眼 3D 观赛、VR 直播观赛已成为现实,PICO 还为用户全新打造了巴黎奥运会观赛场景;

游戏《黑神话:悟空》爆火,为全球玩家提供了一场虚实融合的中国文化盛宴,并且带火了一众线下旅游打卡圣地;


在 15 日火山引擎与 intel 联合举办的“视频云技术大会”上,火山引擎总裁谭待就以数字分身的形式出现,采用豆包语音合成模型和形象驱动算法,达到真人级别的效果,整个演讲过程看上去非常自然、逼真……



所有这些创新应用的背后,都是 AI 带来的颠覆性变化。当下,数字视频时代已经向 AI 视频时代跃迁,用户的需求也在从更流畅、更实时、更高清——升级为更智能、更交互、更沉浸。而要实现这些“更……”,依赖的就是生产、交互、消费等全链路的 AI 升级。


智能生产,多模态使能高品质


正如谭待所描述的,“视频正迅速崛起为人类的第二语言,其丰富的表达手段和效果远超传统文字,为我们提供了更多元、更生动的交流方式。”


随着视频的重要性不断提升,生产端的挑战便是如何以更少的时间、更低的成本生产出更高质量的内容。



比如在电商领域,过去一年中短视频、直播、数字人占比越来越高。好的内容可以吸引用户的注意力,有效传递品牌信息,并且激发消费者购买决策。显然,“好内容”已经成为电商平台收益增长的第一生产力:优质内容高效快速生产从而拉动商品销量,随着商品运营规模大幅增长,营销成本也在大幅下滑(如上图)。

火山引擎的多模态电商素材生成方案,通过融合图像分析、AIGC(人工智能生成内容)、大模型处理、3D 物体重建等先进技术,实现了商品氛围图、图文视频、解说视频、AIGC 视频和 3D 商品模型等多模态营销素材的自动化生。


其带来的效果是门槛大幅降低:商家只需要提供基础信息和一些简单的多模态素材,就可以自动提取卖点、智能裁剪、自动生成视频。举些例子,比如输入乳饮产品的受众、产地、营养成分,就可以自动生成一张首销图或是一段营销视频;比如把服装的图片上传,就可以自动生动模特上身的效果图;比如上传商品信息之后,可以自动生成一系列内容匹配直播、短视频、货架等不同场景需求。火山引擎的多模态电商素材生成方案,端到端自动化让素材生成更智能、更快捷、更个性。


不止于电商,在短剧、赛事、演出等各种场景,也都有海量的自动化生成内容需求,比如短剧的宣发,演出的切片传播,赛事的精彩瞬间等等。火山引擎视频云推出的多模态视频理解与生成方案,依托多媒体实验室自研的 AI 视频理解技术和 AIGC 技术,实现了视频高光的自动化提取和解说内容的生成。一场精彩的演出,可以快速切出多个短片,短剧可以快速生成多段不同视角的预告片,显著缩短了制作周期,大幅降低传播、宣传的成本。


我们知道,声音是视频中的关键要素,火山引擎视频云提供的跨语言同声复刻直播服务,可以实现自动配音、自动匹配字幕,还可以声音复刻。比如在直播中可以使用豆包大模型 Seed-ASR,除了能自动打出字幕,还支持中文、英语、日语、西班牙语、印尼语、葡萄牙语等多国语言输出。在虚拟人的直播中,可以高度还原人声特点、说话风格,还可以调整演讲者口型,让观感更加自然。以“视频云技术大会”活动为例,出现在讲台上的“数字人谭待”,无论是体态、表情还是声音、语气,都实现了对真人的高品质复刻,令人惊羡。


在新视界时代,生产端的挑战是如何以更少的时间、更低的成本生成多角度、高信息密度的优质内容。火山引擎通过 AI 赋能,推出一系列解决方案从而推动了生产力变革:多模态内容根据用户需求自动生成,智能生产让创作者的创意得以充分释放,多模态内容的生产与处理已经变得触手可及。


智能交互变革,给 AI 加点“人味儿”


随着去年大模型火爆之后,与 AI 交互的应用开始兴起。比如手机中的智能助理已经成为用户与手机沟通的主要方式,很多“I 人”不喜欢线下社交,更喜欢与 AI 聊天机器人互动,现在我们拨打客服电话时很大比例都是机器人在提供服务。


举个例子,AI 陪伴已经开始走进日常生活,并且不仅局限文本交流,而是以数字人化身的形式出现,实现了实时语音对话。作为 AIGC 原生产品,AI 陪伴目前的市场热度极高,已经是当下人工智能领域成长最快速的赛道之一。据数据网站 Insightrackr 统计,AI 陪伴类产品从今年二季度开始(特别是 5 月到 7 月),每月的下载量较上月平均增加 94%。


萌宝是一家国内领先的幼儿娱乐启蒙音视频内容平台,为用户提供儿歌、故事、绘本、语言、认知、科学、艺术等多个领域内容。儿童在平台上学习、娱乐的同时,高质量、有温度的 AI 互动可以令用户体验大幅提升:新奇有趣的体验让他们更专注;个性化情感陪伴使其收获理解与关怀;边聊边学的益智启蒙互动使得学习效果更好。


平台一直想为儿童定制一个 AI 伙伴,这其中存在诸多挑战:语音响应延时要低,遇到打断情况要能自然处理,IP 角色音色要贴合,要能真正理解儿童的需求并给出恰当的引导……


总体来讲,AI 陪伴领域存在技术难度高、成本高、效果难保障等痛点。萌宝最终选了火山引擎 AI 实时交互方案。方案通过火山引擎豆包大模型和视频云 RTC 技术实现了语音数据的高效采集、处理和传输,并在服务端为用户提供了智能对话和自然语言处理的强大能力:毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


萌宝对最终的应用效果十分满意:实时响应,互动非常自然,即使交流中被孩子打断也可以智能地续接,AI 的音色亲切且情绪饱满,给孩子们带来有感情还有趣的陪伴。最重要的是,系统能够很精准地理解孩子的需求,提供相应的回复与引导。


这个解决方案源自豆包大模型与实时音视频技术,用户不仅能用语音与 AI 进行交谈,还能像平时说话一样,在对话过程中适时打断或插话,对整体交流的质量也不受影响。经过升级后的 AI 声音相较以往而言更具表现力和感情色彩,对话也因此更自然、更真实、更流畅。


诚然,人与 AI 交互的实现并不难,但要做好却非常难。首先要实现功能价值,就是要精准理解用户的需求是什么;其次还要提供情绪价值,在理解用户意图的基础上,用最自然、最舒服的方式与用户进行交流互动。



火山引擎对话式 AI 实时交互解决方案让智能交互的生产更简单,这也助力客户可以针对不同场景不断创新应用。目前这套方案已经普遍被企业用来定制智能助手、AI 社交陪伴、儿童学习陪伴、AI 教育、智能客服等服务。其中社交领域最为典型:用户不仅能够个性化定制专属 AI Agent,还能在精心设计的剧情中与 AI 角色深度互动。


显然,交互端的智能化,给 AI 增加了不少的“人味儿”,AI 变得越来越有温度。


智能空间,跨时空使能消弭虚实缝隙


今年游戏圈最热的就是《黑神话:悟空》,其大受追捧的原因之一就是跨时空。


游戏通过无人机实景三维重建等前沿技术,将真实场景的纹理与细节以 1:1 的比例精准还原到游戏世界中,为全球玩家提供了一场虚实融合的中国风盛宴。用户在游戏中可以沉浸式观赏风景与体验文化,如果爱到极致还可以来一场说走就走的线下旅游,在游戏中被复刻的 36 个景点,甚至串起了“黑神话旅游专线”。


实际上,2D、3D 以及虚实融合的应用已经越来越多地出现在人们的工作生活中。从消费端来看,时空不再有边界,虚实融合正在引发空间智能化的变革。最近,凯文凯利(KK)预言 AI 带来的颠覆第一条就是:5000 天后镜像世界将会诞生。所谓镜像世界是依靠 AR、VR、AI 等技术将现实和虚拟世界完美融合,我们会处在一种“沉浸式计算”的时代,到处都是数字化,万物皆可与 AI 相连。


针对空间智能化的需求,火山引擎视频云推出了一系列方案:


  • 基于 AI 的 3D 生成方案,用户仅需简单上传所建 3D 内容参考图,自研系统就会自动生成关键视角和稀疏视角图像,快速构建出精确的 3D 几何结构,与传统手工 3D 建模相比,火山引擎 AIG3D 方案在效率、多样性和操作成本等方面有明显优势;


  • 大场景重建方案,实现了对真实场景的高质量 3D 几何构建与外观重建渲染,广泛应用于虚拟直播,VR 直播等场景中,高效率的生成三维直播布景,增强了用户的沉浸感体验;


  • 6DoF 直播方案,实现了高质量、超低延时的 VR 沉浸体验,已成功应用于抖音 VR 直播,成为业内首个基于 Apple Vision Pro 的 3D 直播,为用户带来了震撼的 XR 体验。



基于这些解决方案,用户已经切实体验到智能空间的价值:从文化传承的角度,火山引擎与山西高平二郎庙金代戏台、北京正乙祠戏楼等文物单位合作,将线下珍贵文物转换为线上的永久数字资源,并打造成虚实融合的沉浸式虚拟直播间。目前已经应用于抖音戏曲直播场景,提升主播直播过程的沉浸感和互动感,助力非遗传承与保护。


2024 年奥运期间,PICO 还为用户全新打造了会观赛场景,借助于 VR 大屏,运动员的每一个动作、每一滴汗水、每一帧表情都近在咫尺,沉浸式的极致观赛体验让用户仿佛置身于赛场当中。英特尔与 PICO 团队合作,依托英特尔领先的计算和渲染能力,借助火山引擎的解决方案,启动了“何以华夏”项目,对珍贵的文化遗产进行虚拟再现和推广,为用户带来沉浸式的文化体验。


显然,随着 AI 技术的发展,空间智能化得以实现,用户不再受到时间、空间的限制,消费端的智能化正在消弭物理世界与数字世界的缝隙。


【结束语】


随着生成式 AI、多模态大模型、全景直播、三维重建等技术进步,过去一年我们已经能够明显感受到科技飞跃带来的变化,我们正在迎来一个 AI 加持下的“新视界”。


从数字视频时代到 AI 视频时代的进化,用户需要更智能、更交互、更沉浸的体验,这对生产端、交互端、消费端都提出全新的挑战。只有通过 AI 全链路赋能实现“三智”,才能支持未来更多模式、应用的创新。


火山引擎视频云为全链路升级提供了强大且稳定的音视频技术基座,而英特尔则是强大算力的保障。英特尔®至强®服务器强大的 CPU 处理能力,从实时的高达 8K 的视频处理能力,到基于 AMX 指令集的 AI 算力,从传统的 CV 优化到 LLM 和 AIGC 的最新应用支持,Xeon 服务器始终为火山引擎提供了强有力的算力支撑和可靠服务。


火山引擎视频云+英特尔®至强®服务器全链路全面赋能视频“新视界”。

2024-11-11 17:005067

评论

发布
暂无评论
发现更多内容

Kubernetes Ingress 可视化编辑器

倪朋飞

Kubernetes 网络

数据加密:你应该知道的数仓安全

华为云开发者联盟

数据加密 GaussDB(DWS) 数仓安全 透明加密 加密函数

悖论和直觉

阳龙生

蚂蚁金服三面Java面试题全解析,这也太难了吧

Java架构之路

Java 程序员 架构 面试 编程语言

AWS CDK的那些事

小铨

AWS AWS CDK

架构师知识笔记1

felix徐

架构实战营

mysql实现主主数据库(双机热备)

大奎

巩固知识体系!应聘高级Android工程师历程感言,面试建议

欢喜学安卓

android 程序员 面试 移动开发

滴滴OCE惊喜福利!

滴滴云

如何实现一个简易版的 Spring - 如何实现 Setter 注入

mghio

spring 依赖注入

爽啊,终于又见面了,字节跳动后端社招面试分享

Java架构之路

Java 程序员 架构 面试 编程语言

redis+docker构建主从环境

小铨

redis Docker redis+docker 主从环境

SpringBoot-技术专题-启动自动装配过程

洛神灬殇

spring springboot

阿里P7大牛手把手教你!美团Android开发工程师岗位职能要求,附赠课程+题库

欢喜学安卓

android 程序员 面试 移动开发

小鼎量化机器人系统开发详情介绍

系统开发咨询1357O98O718

2021年GitHub上爆火的999页Java面试宝典终开源

比伯

Java 编程 架构 面试 程序人生

监控系统-zabbix快速入门

小铨

监控 zabbix

周小川:数字货币将是下一代货币研究工作的核心

CECBC

数字货币

WC,误删数据库了,会被开除吗?

Java架构师迁哥

牛链NB系统开发案例源码

系统开发咨询1357O98O718

Python OpenCV 图像旋转,取经之旅第 11 天

梦想橡皮擦

3月日更

Java-技术专题-Synchronized和lock区别

洛神灬殇

Java

数据库与缓存的一致性方案演进

邱学喆

缓存 一致性

MySQL-技术专题-使用规范

洛神灬殇

MySQL

渣硕试水字节跳动,本以为简历都过不了,123+HR面直接拿到意向书

Java 编程 程序员 架构 面试

区块链通证经济——资产流动性的变革

CECBC

资产流动性

区块链如何助力中小企业解决融资难题

CECBC

区块链

【实战问题】-- 缓存穿透之布隆过滤器(1)

秦怀杂货店

缓存 布隆过滤器 java;

字节跳动5面喜提offer!分享给朋友们面试感受

Java架构之路

Java 程序员 架构 面试 编程语言

小鼎机器人系统开发功能及源码

系统开发咨询1357O98O718

Java-技术专题-ConcurrentHashMap读操作分析

洛神灬殇

Java ConcurrentHashMap

生产、交互、消费全链路升级,开启“三智”视频新时代_字节跳动_火山引擎视频云_InfoQ精选文章