快手技术副总裁王仲远：快手以AI技术推动音乐大众化发展

6 月 6 日，2021全球人工智能技术大会“发展与挑战”专题论坛在杭州举行。快手技术副总裁、MMU&Y-tech 负责人王仲远出席论坛并发表《音乐与技术的碰撞交融——艺术如何随时代变迁》主题演讲，分享快手在 AI 音乐方面的动态与进展。

AI 技术+音乐深度融合，快手持续提升短视频观看体验

作为国民短视频 APP，快手拥有海量内容、超大流量和高用户粘性。数据显示，平均每月快手用户上传的短视频数量超 11 亿，整体日活达 3.7 亿+，用户平均每日在快手平台观看短视频和直播内容的时长近 100 分钟。

在丰富的快手社区生态中，音乐成为激励用户创作的因素之一。76%的快手作品有配乐，90%的快手用户期望大部分短视频有配乐。为何用户在创作短视频时，对于音乐有如此强的依赖性？王仲远表示：“对于短视频的制作体验而言，音乐的正向影响至关重要。比如唯美风短视频如果去掉背景音乐只剩原始声音，就会削弱其氛围感，给用户留下与之前截然不同的印象。”

对此，王仲远进一步分析了音乐的独特魅力。在他看来，音乐可以与人的思想情绪联系在一起，能够让人感到欢喜，感到悲伤，感到期待等。

作为一种具有魔力的艺术表现形式，音乐也随着技术的发展而产生新的形式。在工业化时代，制造工艺的改进使得乐器可以发出的声音更加丰富、层次化。在电子化时代，电子技术的发展创造出自然界机械无法发出的声音，音乐的表现力更加多元化。

如今，步入人工智能时代，AI技术则帮助音乐实现全面的个性化和智能化，为音乐和短视频带来了新的发展空间。据王仲远介绍，前段时间火爆全网的《蚂蚁呀嘿》正是将音乐和视觉 AI 技术进行了创意融合，用户只需要一张照片就可以自动生成诙谐好玩的动态唱歌视频，再加上魔性的 BGM，很快成为短视频用户争相创作的模板。

AI 技术推动音乐大众化，快手自建模型还原专业级演唱

在技术的加持下，音乐制作进入大众化时代。如何帮助更多用户创作出个性化的音乐？快手自主研究了 AI 音乐创作模型和 AI 歌手。

从音乐制作流程上来看，大多偏向于流水线化、工程化和模块化。首先是把握创作动机，然后进行作词、作曲，之后进行编曲，最后进行录音和混音。而通过快手搭建的 AI 模型，每一步都可以借助 AI 完成。

王仲远表示：“在 AI 时代，动机变得十分简单。把随机关键词输入快手 AI 音乐模型中，模型就能把词转换成动机的一种表示，乃至于各种初始化的音乐。”

确定好动机之后就可以利用快手 AI 模块生成歌词。在 AI 歌词方面，快手针对数百万已有歌曲对模型进行重新训练，以确保 AI 可以很好地理解词义，让用户只需输入一个主题、一个情感、一个风格，就能在数秒内生成数十首歌词。

在 AI 旋律的创作上，快手也采用类似方法，搭建了数十万首曲谱和百万首歌曲音频训练模型再通过迷你数据库让模型自监督学习歌曲的内在关联，从而训练 AI 旋律生成的能力。

据了解，快手邀请了平台内的音乐人使用 AI 模型来创作新歌曲，已创作的流行音乐有《甜甜的味道》《夜》《勇往直前》等。

录制一首高质量的成品歌曲，对歌手的演唱水平要求极高。为了解决部分用户面临的唱歌跑调、音色不好听等问题，快手则推出了 AI 歌手辅助创作功能，并不断提升其模型的精准度。

据介绍，2020 年 5 月，AI 歌手的演唱还是 KTV 水平；到 2020 年 12 月，普通人已经很难发现 AI 歌手演唱中的瑕疵；如今，模型会根据曲谱自动调整音高、节拍和歌词，AI 歌手可以逼真地还原出专业级歌手的演唱水平。

演讲最后，王仲远表示：“未来，快手还将探索更多新技术，丰富生成侧的玩法。借助语音识别技术，快手希望 AI 歌手将来可以模仿个人音色，AI 音乐则能够把说的话直接转成歌曲，满足用户更个性化的音乐创作需求，持续助力短视频领域创作。”

创作场景

快手技术副总裁王仲远：快手以 AI 技术推动音乐大众化发展

AI 技术+音乐深度融合，快手持续提升短视频观看体验

AI 技术推动音乐大众化，快手自建模型还原专业级演唱