自去年以来,在 AI 领域,可能没什么比 AIGC 更火爆的了。一方面,AI 作画惊艳众人,另一方面, ChatGPT 的爆火出圈再一次把 AIGC 推到了风口浪尖之上。
AIGC 将如何影响 AI 产业,它对于各行各业又将带来哪些改变?火热背后,AIGC 又对科技治理带来了诸多问题和挑战。本期极客有约,我们邀请到了标贝科技 VP 穆向禹博士,来分享《AIGC 对于产业行业的影响,以及科技治理的问题和挑战》。
以下为对话全文:
AIGC 突然火了
InfoQ:自去年以来,AIGC 突然爆红。您是如何看待“AIGC 突然火了”这一现象的?
穆向禹: AIGC 火爆的背后是 OpenAI 公司所推出的 ChatGPT 热度不断,让 AIGC 这一概念也逐渐被大众所接受。
AIGC(人工智能生成内容)的概念并不新鲜,无论是早期视频平台如土豆视频,还是如今的抖音视频,这些数字内容领域有很多 UGC 的相关内容,是文本、音频、图像等数字内容创作的一种新颖形式。
ChatGPT 的推广将大型模型及人工智能的数字内容创作能力进一步提升,不仅 ChatGPT 在聊天创作方面为人们带来了全新的体验,人工智能还可用于音频创作、绘画、作曲、唱歌,以及指定视频生成等领域。现阶段,AIGC 所带来的体验越来越好,让更多的人开始接受它,这是 AIGC 受到广泛关注的原因。
AIGC 爆火,让 AI 语音合成技术获得“加速度”
InfoQ:目前全球很多公司都在布局 AIGC,标贝科技在 AIGC 方面取得了哪些进展?
穆向禹: 标贝科技是一家提供 AI 数据服务和智能语音服务的科技创业公司,这两个业务方向均与 AIGC 有关。
在数据层面,传统数据公司的标准化、结构化数据架构已经不能满足大模型对数据质量的要求。因此,我们引入了人类标注数据的方法,通过具备语言学历、知识层级、履历经验等素质的标注人员,以更全面的能力为文本数据提供更合理的观点和看法,让大模型不断地学习这些观点与看法,从而显示出更为智能化的输出。
在语音层面,标贝科技致力于为用户提供更好的声音体验。众所周知,人类的交流不仅仅是通过图像、视频、文字等形式,语音也是很重要的一环。因此,我们在声音生成方面加大布局规模、提高平台能力、智能化产品体验。我们希望通过技术迭代和产品演进,让声音个性化定制的价格更加低廉、声音整体体验更好,在语言迁移能力和情感表现力方面为 AI 音频内容生成提供更多助力。
InfoQ:AIGC 爆火之下,AI 语音合成技术是否因此获得了发展的“加速度”?
穆向禹: 语音合成技术早在 70 多年前就已经出现。早期的声音合成质量非常差,而随着智能语音导航的出现,语音合成逐渐深入人们的生活之中。可以说,智能语音导航是语音合成的一个重要标志性落地案例,许多公司也开始模仿这类解决方案,在导航和设备交互方面,我们所听到的声音基本都属于这一类型。
随着时间的推移,语音生成从“千人一面”的变成了“千人十面”,这虽然是一种进步,但还未能实现完全的个性化。我们可以提供男女老少各类不同声音,也能提供方言、外语等满足不同人群的需求,但还不能达到“千人千面”的完全个性化定制。我们希望能为每个人定制一款与其本身相似度超过 90%的声音,这款声音还可以具备高自然度、流畅度、可懂度的特点。这一目标给我们带来了巨大的挑战和要求,这种个性化定制的需求必须与具体场景相结合。
元宇宙概念的兴起让许多虚拟人技术公司应运而生的同时,也促进了对声音定制需求的增加。在虚拟化的世界中,人人都可以拥有一个数字分身。我们于 2020 年推出了声音克隆的技术,希望能为每个人克隆自己的声音。
在未来,虚拟世界中将存在更多创作空间,会有许多内容创作者需要单独定制声音,甚至改变声音。举例来说,如果一位主播只会说中文,但通过声音的定制化服务,这位主播将可以用英语进行直播。
InfoQ:目前业界在 AI 语音合成技术方面,还存在哪些技术难点?
穆向禹: 语音技术方面虽然目前已有很多进展,但还有许多问题需要解决。
以定制声音为例,在早期阶段,只有专业录音棚使用专业设备采集的声音才能使用,一旦采集数据的质量不满足要求,定制效果将会非常糟糕。如今,我们降低了声音录制的门槛。对于无法使用专业录音棚录制声音的 C 端用户,直接使用手机上应用程序所采集的声音即可满足我们的要求。当然,为满足最终生成效果,采集环境还是应当相对安静。
此外,我们不仅要求声音具备可懂度,也要求其具备自然度和情感化,并与声音使用的场景内容相匹配。比如,新闻场景中,语音应显得非常严肃,讲故事场景的声音应根据故事情节变换语调。不过,普通人若想实现这些声音的变化是非常困难的,具备不同情感的声音也很难按照要求进行采集。
我相信未来的大型语言模型可以帮我们实现这一目标,我们可以训练大型声音模型,学习不同人的不同情感的声音,以及不同的语言表达能力,最终实现仅靠提取少量录音数据中的人声特性,即可生成定制化模型。
在大型语言模型的基础上,我们可以对模型进行微调和迭代,从而创建一个与本人声音非常相似的模型,且同时能兼顾多种感情与语言的能力。 虽然目前这一领域内还没有长足的进展,但我相信它的商业化前景,我们公司也会继续在这方面投入。
InfoQ:目前在智能语音生成技术中,大模型的应用是怎样的?
穆向禹: 目前我们所使用的大模型尚且无法与 ChatGPT 相比,但我们已经有了另外的发展方向。语音识别形式上是与语音合成相反的一个过程,即将语音转换为文本。语音识别项目的海量数据库从十几年前的百余小时,发展至如今的上万小时起步,横跨了两个数量级。模型的规模也从早期的以兆为单位发展到数十 G 的量级。这也得益于数据采集能力的提高、用户数据积累,以及算力的不断提升。
相比语音识别,语音合成对与单人采集的数据量要求更高。 单人声音的定制生成在技术上需要 10-20 小时时长,有时甚至更多,这导致技术的推广面临极大难度,我们无法要求一个人能持续采集如此大量的数据。
为此,我们在语音合成方面尝试使用了“平均模型”的概念,利用数百人的数据合成一个所谓的“基础模型”,再加入目标对象的少量数据(30 分钟或一小时)就能获得一个不错的效果。 我认为,这种形式是大型模型发展道路中的一环,我们可以期待未来能拥有百人、万人,乃至几十万人的数据规模,但这也需要一定的数据、技术的积累和投资才能达到预期的效果。
此外,在语音合成的训练过程中,我们常常会遇到发音错误、停顿不当、断句不自然等“坏样例”,这些问题往往是由多音字或模型学习不充分导致的断句不正确等原因造成的。
一般来说,人类说话的停顿和分词习惯较为类似,但机器的错误却可能存在一定随机性。因此,我相信大型模型可以学习大量的语言现象和语言规律,经过不断的迭代和发展,能够减少这些“坏样例”的出现,最终达到与人类语音相近的水平,我对这个方向非常期待。
InfoQ:目前“语音克隆”概念在国外已有一些应用,这是否也是一种较为前沿的技术路线?中外语音合成技术是否存在差异?
穆向禹: 声音克隆并不是一项非常新颖的概念,但随着技术的不断演进,其效果也越来越好。在 2015 年左右,我在百度工作时,曾利用网络收集的张国荣的声音,语音合成了一种类似张国荣的克隆声音,并用其制作了一封“哥哥的来信”送给歌迷,虽然这封信感动了很多人,但那时我们所拥有的数据质量有限,技术也不是很成熟。
国外的科技公司帮助霍金和渐冻症患者克隆了他们的声音,将其用于语音合成引擎,让他们能够通过打字输出对应的声音。此外,也有利用声音作为表达形式,让人们能保持与逝去的亲人长期交流和联系的应用。
在国内我们也收到过类似的需求,但我们将其定义为非盈利的公益性质项目,希望能通过技术为人们的生活带来一些温暖。
近年来,我们的声音克隆技术已经有了长足的进步,对声音质量的要求也不断降低,通过数字信号处理方法,我们得以对提取出的数据进行降噪处理,以满足对音质的需求。在近期的一个项目中,我们仅使用了不足十分钟的声音数据,利用最新的 GPU 模型运算,达到了足以以假乱真的效果。当然,我们也必须保持警惕,确保技术不会被用于犯罪。
InfoQ:ChatGPT 是当下非常火热的 AI 技术,在文本对话方面表现优异。标贝是否考虑将 ChatGPT 应用于业务的文本生成、语音生成、自然语言理解等方面?
穆向禹: 随着 ChatGPT 的热度不断攀升,许多国内公司的市值也随之上涨。虽然作为创业公司没有上市,但我们更加注重如何做好自己的事。
ChatGPT 对我们而言是利好的。大型模型对高质量数据要求更高,而我们正致力于成为一家高科技含量的 AI 数据服务提供商。
此外,ChatGPT 的出现为人机交互方面带来了巨大影响,让我们看到了 AI 的潜力,让 AI 更像是人类。**在未来,人机交互将会得到进一步的发展,智能语音的接入会获得更广泛的应用和落地场景。**因此,我们相信 ChatGPT 将被应用于更为广泛的领域,标贝虽然没有追逐热点,但我们坚信这个方向的发展,并致力做好自己擅长的事,为 AIGC 或 AI 技术做出自己的贡献。
InfoQ:标贝科技对声音库商业化的具体做法是什么呢?
穆向禹: 我们的声音库目前在国内排名靠前,且有大量准备陆续商业化的声音库。我们对于声音库的商业化有两个层面。
第一层面在于数据本身。因为声音数据库是可被多次使用的标准化产品,因此我们可以向不同合作伙伴进行销售,允许后者基于同样的数据开发出自己的声音技术。这是市场上一种通用的商业模式。
第二层面利用标贝的算法和技术能力,将声音转换为语音合成音色。这是我们所提供服务的附加因素,可以授权给合作伙伴使用。
合成数据成 AIGC 基石
InfoQ:合成数据是标贝的重要业务领域之一,目前公司有哪些用于合成数据的技术和工具,应用实践情况又是怎样的?
穆向禹: 标贝最初是以数据起家,主要业务方向在语音识别和合成两个方向。早期的训练模型为覆盖不同人群、地域,有时还需要设计文本,数据的采集成本高、采集周期长。
为此,我们尝试过很多工作,包括开发自用系统和客户系统、声音转换及变声等技术。虽然无法完全替代真实数据,但合成数据在许多场景下能够快速生成大量数据,协助搭建出优秀的基线系统。
我们在后续也会使用真实数据进行半监督学习,不断迭代、调优模型,让模型更符合实际场景。对于难以采集数据的场景,我们只能依赖合成数据构建基线系统及模型,其中,基线系统是进行数据滚动和模型迭代的必要基础。
InfoQ:合成数据有哪些急需的场景呢?
穆向禹: 在自动驾驶行业中会用到许多模拟数据,这些模拟系统能够生成通常情况下无法复现的场景,具有更广泛的覆盖性。
图像处理方面也存在类似的需求,例如隔墙场景的距离估计、物体和人脸的识别,甚至包括 OCR 字体识别等。在这些应用场景中,很多厂家都选择通过合成数据来补足真实数据中采集难度较大的部分。
InfoQ:合成数据目前的技术难点在哪里?在应用和商业化方面,标贝公司进展如何?
穆向禹: 以文本层面为例,声母和韵母之间不一定有一一对应的组合关系,导致合成数据与真实数据之间存在差异,影响训练效果。为解决这一问题,我们需要在知识层面上对模型进行指导,让合成数据更接近真实场景,而不是简单地穷举所有声韵母组合。
标贝科技目前已对语音方面进行了探索,如方言和识别系统的搭建。但我们还需要更为广泛、深入的探索。此外,我们也在思考如何利用已有的合成数据快速构建基线,在现有数据库中生成更多语音的合成音色。在图像和文本层面,我们也在进行相关探索和布局,但这仍需要时间来积累和展现成果。
InfoQ:AIGC 对于合成数据有什么影响?
穆向禹: 在我看来,合成数据虽然可以用于快速搭建基线系统,但其并不能覆盖真实场景的所有方面。虽然目前的合成数据可以在 AI 系统建模方面提供一定的辅助作用,但它不能替代真实数据的存在。在小数据量的情况下,例如在无法收集到足够数据的情况下,合成数据可能是一个研究方向。
但对于海量的数据,例如自动驾驶数据,为什么要使用大量的虚拟数据进行训练?其中一个原因是获取虚拟数据的成本更低廉。实际上,真实的自动驾驶数据需要进行人工标注,这是一项非常昂贵的成本。因此,使用模拟数据可以让我们先把基线系统建立到足够的水平,然后再使用真实数据进行补充,这种方法可以在较低的成本下构建更好的系统。
InfoQ:目前许多虚拟人产品在主张打造情感化的特征。如果我们想将 AI 合成技术商业化,是否希望将其应用于这些具体的情景中?
穆向禹: AI 合成技术在最近十年左右已经有了很大的进步。早期的技术环境中,因为将不同的感情融入语言模型可能导致训练效果的不稳定,因此很少会考虑感情的因素,仅仅是为让合成声音更像是人声。
此外,数据的采集方式也存在许多不足,例如在录音棚中按文本设计,一句一录音,不仅忽略了上下文和语义关系,也影响了情感表达的完整性。如今,通过整轨录音方式(录音人根据设计好的主题,在一段时间内进行发挥)进行的数据采集,不仅保留了足够完整的情感表达,也能缩短我们的生产周期。我们在不断对这种技术进行改善,包括使用大型模型和迁移学习等技术支持更多语言的混合表达。不过,从算法到实际落地的过程,我们仍需要花费时间和精力细致地打磨产品细节。
InfoQ:数据采集时需要向用户支付费用吗?
穆向禹: 我们目前提供两种服务方式:
通过自研 Demo 展示产品性能,这种形式虽然免费但也存在限制。如只能在固定平台上使用、输入文字有限制、仅限有效期内单次使用等。
提供商业化服务,售价与市面其他有偿服务一致,根据定价策略进行售卖。
AI 辅助内容创作技术尚处于初级阶段
InfoQ:目前在短视频等介质上,声音合成等技术非常流行。AIGC 为内容创作带来了哪些实质性的影响?
穆向禹: 目前 AI 辅助内容创作技术尚处于初级阶段,还无法直接进行内容的创作。当前市面上已有一些通过文字生成图像等原型的系统,在娱乐场景中可能让人感到惊艳,但这些由 AI 辅助生成的图像和视频内容仍过于粗糙简单,难以与真实电影大作中的丰富剧情、明星角色、声音、特效等元素相媲美。
在初级阶段,AI 主要用于辅助进行原型验证、快速生成简单剧本等功能,在产品或项目的 PoC(概念验证)阶段,AI 能快速生成“概念”,验证想法是否可行,从而加速整体创作过程。
就文字创作而言,AI 写出的文章质量越来越高,有时甚至可以媲美真人写手。通过与真人的协同加工,未来 AI 创作的内容可能会达到专业级别水准,大幅缩短创作周期。
此外,更多普通人也能够借助 AI 的能力进入创作领域。在抖音、快手等平台上,人们无需具备专业制作技能,即可通过 AI 技术创作出更为炫酷的短视频,加入更多的电影大片元素。尽管目前我们还处于初级阶段,但随着技术的成熟,相信在未来的几年,这一领域将有更多突破和进展,AI 也能够创作出像《阿凡达》这样让人们每次看完都意犹未尽的电影大片。
InfoQ:随着元宇宙的发展,语音和合成数据技术是否在其中大有可为?
穆向禹: 在元宇宙世界中包含了大量生成内容、可交互场景以及更多人的参与,得以构建出的完整生态系统。因此,元宇宙的构建不是仅仅几家公司所能承担,需要国家政策法规和基础建设的支持。举例来说,当前 5G 可能无法支撑元宇宙所需要的更高信息传输速度和信息容量,可能需要 6G 甚至 7G 的技术支持。
在这一过程中,我们为元宇宙创造的声音和内容仅仅只是其中一部分工作,只有在各国政府和公司的技术协同和通力合作下,才能最终实现我们对元宇宙的期望。虽然当前我们无法真正实现完整的元宇宙,只能进行虚拟展示和体验,但我们相信,在众人的共同努力和合作下,未来的某个时刻我们能够实现一个真正的元宇宙。
争议与挑战
InfoQ:目前是否存在保护机制,避免人们被克隆的声音被滥用呢?
穆向禹: 我国在去年陆续出台了个人信息保护法等相关法案,健全了声音、图像、文本生成方面的法律法规。
我们公司也采取了诸多措施解决声音被滥用的问题:
与用户建立完善的授权协议以确保其知情权
所有声音服务仅在标贝服务引擎上使用,无法用于外部使用
在用克隆声音讲故事等 ToC 小型应用程序中,克隆的声音仅可在应用程序中阅读有限的内容,不可随意合成分发
我们在声音的生产源头也有许多工作要做,如录音认证以确保是声音本人同意且授权的录音等。后续我们也将限制使用范围,如不可随意合成任意文本,合成文本不可随意进行外部使用等。我们正在不断完善这些工作,以尽可能地保证声音克隆在有限范围内得到合法的应用。
InfoQ:能否对生成物添加数字水印,允许第三方工具检测其真实性?
穆向禹: 语音领域对数字水印的研究很早便开始了。据我所知,国家成立了专门的技术委员会负责研究数字水印技术,在文本、音视频中嵌入普通人无法感知,但可通过技术手段验证的数字水印,类似验钞机验证钞票真伪的原理,让我们可以使用类似的技术手段验证声音和图像中数字水印的存在。
InfoQ:对专业艺术家而言,AI 绘画工具可能会带来挑战和冲击。您如何看待目前国外涉及 AI 绘画工具的诉讼案件?
穆向禹: 这类事情是历史的趋势,就像工业化时代和自动化机械的出现淘汰工人一样,是无法逆转的。不同级别的艺术家所创作的作品定价复杂,虚拟人和高价值 IP 的出现也为这些问题带来了新的挑战。
而 AI 作品是否拥有版权等问题,也仍需各国政府和国际法律协同建立并健全相应机制。尽管解决这类问题需要不少时间,但这是一种未来的趋势,我们可以期待更多 AI 创作作品的出现。
InfoQ:AIGC 是否会对智能语音生成与合成数据方面的科技治理带来许多挑战?有哪些技术解决方案能应对现有的争议与风险点?
穆向禹:风险一直存在,声音克隆也在逐渐完善。 为解决风险问题,我们所有任务均有明确且详细的授权书,其中规定了生成声音的使用范围、使用地域、使用年限、使用场景、是否可以转授权、数据是否可以二次销售、制成成品的使用场景等等。
我们也会遵守国家的个人信息保护法等相关法律,在更多层面告知用户可能存在的风险和问题。在应用中,我们为用户提供了擦除、消除克隆声音乃至所有中间合成数据的途径。
我们的技术以类似公有云的形式供给所有开发者进行调用,因此需要对相关服务进行管控,如干扰和处理任何违规的合成内容等方面,确保我们的技术不被非法使用。
在未来我们会对技术进行大量推广,让每个人的声音都可能被克隆,许多监管问题也会随之而来。此外,我们也会限制声音在特定应用中的使用。在元宇宙或元宇宙市场发展后的将来,声音将被用于更多场景,因此,我们需要按照国家法律法规和互联网相关规范,规避对声音的非法使用风险。我相信在未来,随着 AI 技术和其他延展技术的不断发展,对于克隆声音的使用会越来越合法。
评论