在策划 11 月 5-6 日北京 AICon 人工智能大会的时候,我们联系到了快手技术 VP、人工智能团队 MMU&Y-tech 负责人王仲远博士,邀请他来担任 AICon 会议的 Co-Chairman。他本人在 NLP、知识图谱、多模态、搜索推荐、深度学习等领域有多年的研究应用经验,曾任美团核心技术团队搜索与 NLP 部负责人,带领团队主要负责美团 App 和大众点评 App 的搜索系统及人工智能核心技术研发。
加入快手后,王仲远所带领的团队涵盖了 CV、CG、Speech、NLP、KG 等 AI 的几个主要方向,负责将研究成果落地到各个业务。以下是与王仲远博士对话的核心内容整理:
AICon:可以谈谈为什么会加入快手吗?
王仲远:很早的时候我就对快手有了解,印象非常深刻的是 2017 年有机会和宿华交流过,他给我介绍了快手,也给我看过很多真实的用户通过快手改变生活的案例,一些短视频创作者通过快手的平台被很多人认识,改变了他们人生的轨迹,改善了他们的生活,我当时对快手朴素的认知是,这个平台给了很多普通人机会,普惠和平等的理念其实这么多年一直在吸引我。
恰好有合适的机会来快手工作,我希望能够发挥自己的价值,一方面利用自己的过往经历帮助公司有更好的发展,另一方面也可以拓展自己的边界。我过往的背景主要是在 NLP、知识图谱及搜索推荐等领域,但我也想拓展自己在 AI 更多方向上的能力,到快手有机会接触像 CV、CG、Speech 等领域进行技术研发,这也是我很感兴趣的地方。
AICon:入职快手之后您工作或研究的侧重点有哪些?
王仲远:过去一年,我个人花在 CV、CG、Speech 等方面的时间比较多,这些方向和整个快手的业务场景是更加契合,特别是视觉技术,快手是以短视频直播为主的内容社区,视觉在整个技术生态和业务生态中所扮演的角色非常重要。
视觉相关技术,比如文字识别、视频的一些分类标签、视频质量的一些判定,以及通过分析视频画面信息了解创作者喜欢创作什么样的视频、用户喜欢看什么样的视频等,当然为了实现这个目标我们不只用单模态,融合视觉、音频、NLP 的多模态技术可以帮助我们更好的去理解快手的生态。今年快手在多模态训练模型上面也有比较大的进展。
AICon:以您的了解,NLP 技术、计算机视觉或者多模态等技术,在美团、快手这两家业务形态差异很大的公司,应用上是不是有相似之处?
王仲远:对,相似之处还是挺多的。整体上来看,两家公司都在服务于国内非常广大的用户群体,他们对于技术的需求有许多相似性。
美团在视觉、语音、NLP 等方向都有相应研发团队,他们在服务于美团各种业务的场景。我现在在快手这边所带领的团队,基本上也是包括 CV、CG、Speech、NLP、KG 这几个 AI 的主要方向,都有相应的一些研究和落地。
另外近些年技术的发展趋势也导致了不同公司会有相似的技术研究。Deep learning 取得了显著的技术突破,并在实际业务中的产出显著,导致 Deep Learning 成为 AI 非常主流的研究和应用方向,AI 的很多方向都被 Deep Learning 代表了,使得原来计算机领域或者人工智能领域有很多的方向,背后所使用的技术在趋同,像 CV、Speech、NLP,背后主流的模型基本上都是基于 Transformer,这使得我从 NLP 逐步往其他方向探索的时候,并不感到陌生或毫无基础,这对我算是一个幸运的地方。
当然对于行业而言,不幸的是,在未来可能各方面的技术边界越来越模糊,事实上现在已经逐渐出现越来越多的多模态技术研究。技术融合变得门槛很低,但大家做的事越来越相像。
AICon:业界的这种相似趋同,会不会导致未来研究方向的固化?比如只围绕某些方向开展,进而导致业界整体发展的停滞?
王仲远:在业界,人工智能带来的,或者说是 Deep Learning 所带来的技术红利在慢慢消失,大家在探索新的方向,比如往 Deep Learning 里面加 common sense,使得它变成可解释的 Deep Learning 是一个重要方向。
另外大模型也是非常重要的方向,我们可以看到今年的很多学术、行业大会的议题分配上非常重视大模型,如果看全球范围,几年前普遍的模型参数量可能还是 10 亿量级,到后来百亿千亿,过去这一两年,基本上像比较有名的模型都已经到万亿级别了,Google 的 Switch Transformer 是一个万亿级别的,然后包括像 GPT-3、阿里发布的 M6 模型,其实都是万亿级别参数的,快手在这方面也在投入相应的研究。
不过各家大模型的训练集不同,应用场景差异也比较明显。以 GPT-3 为例,它依然是偏 NLP 的模型,所以它更多的是用来做文本的一些创作,以及比如说自动写稿等这些事情。
还有一个重要的研究方向是,怎么让黑盒的深度学习跟知识能够进行融合变成可解释,然后增加常识。我们看到即使是大模型展现出非常惊人的效果,但是它依然会犯很多常识性的错误,比如问大模型世界第一高峰是什么,它会反馈是珠穆朗玛峰,如果继续问世界第二高峰是什么,它可能还是回答珠穆朗玛峰。显而易见人不会犯这样的错误,即便人不知道第二高峰是什么但也能够去推测它肯定不是珠穆朗玛峰。
人类有另外的推理逻辑,大模型虽然展现出超强的对话和创作能力,但依然缺乏逻辑,缺乏常识,人工智能和人工智障仅差一字,所以学术界还在积极探索。今年的智源大会上邀请了深度学习的三巨头也是图灵奖的获得者之一 Yoshua Bengio,他也提到了相似的方向。
AICon:加入快手,有哪些技术上的问题需要解决?
王仲远:快手是一家以 AI 为核心技术的科技公司,产品上是以短视频及直播的推荐分发为核心的业务形态。在行业发展上,推荐系统与搜索系统的技术演进路径有所不同。搜索系统是先以内容分析为主,再结合了用户行为;而推荐系统则是以用户行为为主,再尝试结合内容理解。
逻辑上来说,内容理解可以帮助推荐系统为用户做更加个性化的内容分发和匹配,但如何将两者有效结合,行业里过去成功落地的案例并不多。结合我过往在 AI 方向的研发经历与在产业实际产品系统中的落地经验,如何更好地利用内容理解为推荐系统进一步提升个性化推荐能力,这是我能为快手做的。
我非常开心入职一年的时间里,在这方面有了显著的一些进展。未来需要继续解决的技术挑战点还很多,我对此充满了期待。
AICon:您之前对外有讲过音乐跟技术的结合,除此之外快手目前还有哪些比较有趣的技术应用?
王仲远:AI 技术在快手应用的非常广泛。用户感受最明显的可能是各种魔表特效产品,其中集成了不少快手前沿的 AI 技术,像通过 GAN 技术将任意用户变成迪士尼风格人物的魔法表情等。也有很多魔表特效的技术并不一定是行业最新的,但用户体验很好,比如奥运会期间,快手推出了一个魔表是能够拥有和奥运冠军同款的口罩,这个魔表背后的技术包括实时人脸关键点检测等技术,可以实现把每个口罩精准“戴到”用户脸上,受到快手用户的热烈追捧。
再比如万物 AR,可以用手机的摄像头拍摄生活中的任何物体,它可以在屏幕内活动起来。
另外音乐和技术的结合成果也是不断迭代升级的,最新的进展是用户只需要简单的说一些句子,就可以用技术把它变成 rap 风格的短视频。
近年来不少公司都在尝试推出一些虚拟偶像,我们能看到电视台也有用虚拟主播播报新闻的,快手也在尝试虚拟人、虚拟主播方向的探索。
还有大量的 AI 技术,主要是在服务器端运行的,他们默默地支撑起一个庞大、复杂但又十分精准的个性化推荐系统。这些 AI 技术,对于用户而言,是透明的。
因此,对于大部分用户可感知的 AI 在快手的落地,除了内容的精准推荐外,更多的是让用户实现低门槛的优质创作,不需要专业知识和设备,就能输出视觉、听觉水平相对高质量的视频,让看起来高冷的技术走进每个普通人的生活是快手核心要解决的问题。
AICon:您作为技术负责人,怎么去考虑 AI 技术布局?
王仲远:举个例子,如果我们都只关注于未来三个月或半年就能落地的技术,那么很显然它是不具备可持续发展的。反之,如果只关注中长期才能见效的研究方向和研究项目的话,那么不确定性又会非常大,毕竟业务对于 AI 技术的渴求是非常强烈的。所以技术布局本质上是一个短期项目与长期项目配比的问题。
公司首要面临的是行业里激烈的市场竞争,我们的基本原则首先是希望能够去做对公司业务有意义的研究,在这个基础上再做选择,哪些技术业界已经进入到相对成熟的阶段,这类技术我们就想办法进行业务落地;哪些技术可能是行业未来发展的趋势,我们需要持续投入资源去做研发;哪些项目是要短期 3-5 个月就能够看到效果,哪些是中期或者长达 5-10 年才有效果。这个比例是要做充分考量的,比例不合适的时候公司业务发展就可能出问题。同时,在做中长期投入的时候,需要把它做 milestone 拆解,确保这个项目有阶段性产出。
AICon:曾经有人说,在实际工作中无法平衡好技术和业务的关系,业务催得紧,技术需要很长时间才能达到满意的效果。您作为资深从业者是否可以给他们一些建议?
王仲远:首先,沟通是非常重要的,我经常跟团队的人讲同理心非常重要,同理心能够帮助技术团队更好的去理解业务的痛点和需求。其次要有更为综合的能力,让决策更有大局观。近期我在内部有一个分享,在讲什么样的人才在未来是越来越有竞争力,我觉得是 π 型人才。比如说产品同时有业务 sense,有一些管理能力,这个人具备多种能力的时候,他的竞争力会大幅的提升,在面临有矛盾的问题时他能够从更大的视角去判断说应该优先考虑什么。
【活动推荐】:在 11 月 5 日北京AICon大会上,王仲远博士也会分享一个话题,讲讲他这么多年的 AI 研究和落地经验。除此之外,我们还要请到了腾讯看点、贝壳、阿里等公司的资深技术专家来会议上分享各自的前瞻话题。
评论