目前 AI 技术受到了各大手机和智能设备应用厂商的广泛关注,尤其是基于深度学习的自然语言处理(NLP)因其丰富的应用场景,带动了大量快速增长的应用落地,如机器翻译,搜索推荐,问答系统,聊天机器人等。如何将自然语言处理技术应用于不同任务场景,成为了人工智能从业者非常关注的问题,也引发了很多工程师的探索性实践。今天会和大家分享下关于落地 AI 产品的一些具体思考。
今天的介绍会围绕下面三点展开:
当前 AI 的发展情况
NLP 和语音助手的发展情况
怎样做好一款 AI 产品
当前 AI 的发展情况
技术思维和产品思维是兼容而且相互补充的。举个例子,假如有一位程序人员开发了一套关于手势交互的深度学习算法,可以把算法的效果在试验用的标准数据集上提升 5%的准确率,然后利用 GPU 的推理可以把速度降低到 200 毫秒,自然而然会认为这是一个不错的与电视厂商合作的机会,利用手势交互实现电视台换台,开关机与调控音量的功能。但这里有几个问题,接下来会告诉大家,技术人员最常见,最容易犯的四种错误。
第一个就是好高骛远,我们经常会做一些技术无法达到人类期望值的事情,比如怎么样识别猫狗的语言,以及聊天机器人和人类能够自然对话等。技术具有天花板,就不可能在产品上有非常好的一个表现。
第二个是外强中干,一些算法其实没有办法达到手机端上的实际要求,比如进行手机的端侧 GPU 推理势必带来耗电量增加,如何重构端侧算法也是需要考量的一个问题。
第三就是得不偿失,指的是成本控制较差。上述的手势交互算法要投入非常大的成本去进行数据的采买,然后还要投入非常多的人力去进行算法和数据的清洗。产品方法论里面有一个非常经典的公式,这个公式是“新体验-旧体验-替换成本>0”。上述例子里替换成本就是从遥控器这样一个使用习惯,迁移到用手势交互来控制电视这样一个使用习惯,这个公式值是远远小于零的,所以这种算法在实际中很难去落地。
最后一个问题就是南辕北辙了,算法人员往往没有关注用户最本质的需求导致用户需求与技术不对等。
举一个简单的例子,最近有很多新款手机已经搭载了新一代的骁龙 888 芯片,如果技术人员用技术语言去描述这样一个手机产品的话,会是什么样的呢?可能会有下面的文案:这款手机搭载了最新一代的骁龙 888 芯片,搭载了最新一代的 LPDDR5 内存,搭载了 USS3.0 高速存储,有 120 赫兹刷新率,全面适配 Wi-Fi6,还有超强 VC 液冷散热。不过用户关注的是这样的数字吗?在购买手机的业务场景下,除了那些极客用户之外,真正的用户购买手机不是关注数字,而是手机能带给他们实际的体验。如果用面向用户语言去描述同样一段文字,应该是,“你看我这新出的一款手机,它打游戏是不烫的,用起来一点都不卡,能待机一整天,看视频非常流畅,网络刷剧相当快,而且手机电量十分钟可以充一半,半小时可以充满”,这样的话其实就是在用面向用户需求的语言去描述产品,所以这个例子其实想说明技术人员非常需要关注用户的需求,用更接地气的营销手段去实现营收目标。
AI 进展及趋势
Gartner 每年都会发布人工智能的成熟度曲线,在今年发布的成熟度曲线里,我们发现有几个非常明显的变化,首先机器学习,深度学习以及计算机视觉,FPGA 和聊天机器人,它们已经走入了成熟期,也就是说还有两到五年的时间就达到平台期。而对于自然语言处理,自动驾驶,通用人工智能,都还有非常长的时间才能够达到成熟期。从自然语言处理的角度来看,取得突破的时间远比计算机视觉要晚。其中有一个原因是没有特别好的方法去进行自然语言的表示。2017 年出现的 transformer 给自然语言处理领域带来了新的突破,2020 年底的 GPT-3 又再一次刷新了人们的认知。
有一种说法判断一个 AI 技术是不是达到了它的平台期,就看在这项技术领域有没有人获得了图灵奖。我们很欣喜地发现,2018 年深度学习的三位大牛获得了图灵奖,也就标志着深度学习从高峰期走向了成熟期,后面的深度学习应用基本上都是围绕着产业应用来进行的。
最近两年 AI 的发展其实是呈现一个冷静趋势,非常多的明星企业面临了衰落和倒闭。包括 Anki Vector Robot, 芯片新星 Wave computing 以及吴恩达夫妇投资的 drive.ai,还有大量自动驾驶,头戴式 VR 眼镜和聊天机器人公司,都倒在了上市之前的道路上。从 AI 投资的角度来看,前几年投资人主要关注这个团队有没有明星的科学家,例如有没有图灵奖获得者,有没有大牛存在,然后就更关注算法效果是不是国际领先的,再到这两年,大家更关注的是有没有落地的案例,有没有客户,以及公司的收入如何。
NLP 和语音助手的发展情况
我们可以看到,从 2018 年开始,世界范围内人工智能领域的融资额大概下降了 65%,整个 AI 行业实际上是遇冷的。但是在手机上我们还是能看到非常多的 AI 产品落地。
例如下面两个例子:
计算摄影:
使用手机拍照时,手机会自动帮我们进行一些矫正或者是图片增强,实际上用到的就是计算摄影技术。计算摄影是用数字计算,而不是用硬件设备实现了高清影像捕捉技术,最早是由谷歌在 pixel1 代手机上所提出来的。经过了多年进化,到了 iPhone 的 A13 和 A14 芯片的时候,整个计算摄影技术基本上可以和谷歌的技术所持平,我们使用手机拍照时,使用 50 倍放大拍摄月亮,就是用到了计算摄影技术。
语音助手:
语音助手其实是一个结合了语音,自然语言处理,知识图谱,还有多模态交互技术的集大成者,而其中最核心的技术仍然是自然语言处理。
iPhone 的 Siri,vivo 的 Jovi,小米的小爱同学,三星的 Bixby,华为的小艺,oppo 的 Breeno,谷歌的 Google assistant,是各大厂商语音助手的相关产品,但实际上,这些语音助手的表现,仍然无法达到人类的期望值。其中一个原因就是技术的天花板限制,还无法做到能与人进行自然交互的水平。在人类的交互过程中,会基于情境、说话对象、时间、地点,以及很多我们所拥有的人生经验和知识储备,目前来看语音助手没有办法达到这样一个水平。在 2017 年第二代预训练语言模型出现之后,自然语言处理技术有了突飞猛进的发展,但即便如此,我们也会发现其实很多的底层技术都是在冰山以下的,所以像 NLP 的基础技术,自然语言理解技术和知识图谱,以及我们的阅读理解,观点挖掘等等,都是属于水平线以下的。
最近刚出现的 GPT-3 带来了让人惊艳的效果。但需要极高的训练成本,而且本质上 GPT-3 实际上是一个概率模型。在语音助手这样的交互类产品上,我们也不可以保证 GPT-3 所有的回答都是准确的。这也就带来了一个问题,我们希望手机上每一个产品的效果都是确定的,那么 AI 的一个非常大的特点就是它的不确定性。在技术链条里面,我们尽可能的不敢去用,或者是不倾向去用这样一些深度学习的技术,因为使用这样一个黑盒技术,很可能带来结果的不可控。
如果把语音技术助手这样一个产品比作是一个木桶的话,这个技术是有自己的一个短板的,技术短板不仅仅包括在自然语言处理,还包括在语音唤醒和语音识别等,比如降噪技术中的鸡尾酒会效应问题,如何在非常嘈杂的环境下去做到语音识别的准确度,这都是我们现在目前的技术所没有办法突破的短板。
因此,在技术的短板限制下,我们能够在前台感知到的产品形态其实很有限,包括刚才提到的语音助手,搜索引擎,输入法这样一些技术可能都属于我们能够看到的自然语言处理表象技术,除了不断提升技术天花板之外,还有很重要一点就是通过产品手段尽可能弥补技术短板。
怎样做好一款 AI 产品
所谓说,技术不够,产品来凑,接下来就聊一聊如何通过一些产品的手段去弥补一个技术的局限。
首先,我们可以尝试降低用户的预期,不要让用户觉得语音助手什么问题都可以回答,什么话都可以说。另外,还可以从声音交互或者视觉交互角度,给用户一个不同的惊喜体验,让这个产品的表现力和产品效果变得更好,比如说我们可以用一些情感化的语音合成,让用户觉得这个产品是有生命感的。再比如 iOS14,它对 Siri 进行了一个大的改版,我们就可以看到它的图标是非常具有灵动性的。从交互形式的改变,可以大大提升用户体验。
那么下面我们重点来谈谈如何做好一款 AI 产品。
首先,对于技术人员而言,我们要想好三个问题。第一个问题就是我的用户是谁,第二个问题就是我的用户想要什么,第三个问题就是我要做一个什么样的一个产品。
当我们能够精准定位我们的目标用户后,就要开始关注手机用户的四种需求:连接他人-用户和其他人的交流渠道,包括电话、微信等;连接本机-用户在手机上获得各种体验,如看视频、听音乐、拍照、办公等;连接外部服务-用户通过手机连接外部世界,如外卖、打车等以及连接设备;用户通过手机连接其他设备,如设备互联、电子车钥匙、投屏等。我们需要思考我们的产品满足用户哪一类需求。
手机产品也分为:工具型产品,交易型产品,内容型产品,以及游戏型产品。工具型产品可以解决用户的一些特定问题,可能是用完即走的。我们可以拓展它的一些产品外延,让用户留存下来。游戏型产品更关注用户的娱乐体验。确定了要做的产品类型之后,下一步就是要明确产品的核心目标。
但要注意的是,工具类产品的核心指标是用户体验。算法工程师其实存在一个比较大的困惑,如何用数据去度量用户体验这个比较虚的目标。最常用的一个度量指标就是用户净推荐值,具体来讲就是去问用户“你是否愿意将这个产品推荐给你的朋友或者同事”。更进一步,我们可以设置一个北极星指标,例如产品日活,然后结合每个模块进行细致拆分。我们可能需要关注每日新增用户,核心用户在今天的贡献数值,打开率,使用频次,目标达成率,分享率等等。当我们把这些核心目标真正拆解清楚的时候,我们就有了主要指标,就是我们应该怎么样去把这个产品做好。
还有一个比较好的产品方法论叫 RFM 模型,它是通过 RFM 这三个要素去把整个用户分成了八个类型,包括最近一次什么时候使用的(Recency),使用的次数有多少(frequency),还有用户在产品上贡献的金额有多少(money)。但我们在做语音助手这样工具类产品的时候,其实 money 是不存在的,因为它不是一个面向收入的产品,所以 money 可以转化成使用时长,或者转化成使用功能数。
当我们寻找到 RFM 都高的群体,就是我们目标的核心用户。找到核心用户的下一步,其实是做核心用户的分群和拆解。核心用户仍然需要进一步的拆分,我们会从三个维度:特征维度,行为维度,需求维度来进行拆分,比如从性别,年龄,消费行为,使用行为还有潜在需求进行划分,这样能够精准的抓住我们的核心用户是谁。
当我们验证了核心用户有效后,我们会使用 TGI 指数去寻找核心用户的需求。
以寻找抖音 00 后的需求为例,在抖音观众的人群画像里,假设说 00 后的所有人群里有 15%的人喜欢观看游戏视频,大盘用户里面有 10%的人喜欢看游戏视频,那么 15%÷10%就是 1.5,1.5 再乘以 100 就是 150,所以我们最后计算 00 后关于游戏的 TGI 指数就是 150,这个指数是远高于基准值 100 的。
如何去计算产品的上限我们同样可以使用 DAU 来预测。在自然增长的情形下,第 n 天的日活理论上等于当天的新增用户,加上此前每一天的新增用户在当天的一个留存。
DAU(n)=A(n)+A(n-1)R(1)+A(n-2)R(2)+... ...+A(1)R(n-1)
假设每日新增用户 A 相同,
DAU(n)=A(1+R(1)+... ...+ R(n-1))
DAU(t)为第 t 天的日活,A(t)为第 t 天的新增用户,R(t)为新增用户在第 t 天后的留存。
在执行的过程中,我们一定要善用好 AB 测试。这是一个非常有效的手段去判断功能上线之后有没有效果。在实现过程中,我们也需要遵循一定的标准,像谷歌,苹果,华为,阿里都有具体的设计标准辅助进行产品的落地。
最后在产品生命周期中,每一个产品都会有不同的一个发展阶段。以微信举例,发展多年的微信本应走向一个下降的趋势,但是它通过产品外延的拓展和生态建设,超越了下降阶段从而达到一个新的高度。
在落地过程,一个优秀的产品需要整个团队配合,这个时候我们就要将指标分拆到每一个子团队,也就是说当我的产品定位在日活指标之后,技术,算法,度量,调研,运营就一定要把指标拆分并明确到每一个子模块上面去,这才能更好的往前推进,实现整个团队的总体目标。
最后,我想分享一点我观看苹果 Apple Watch 发布会的感受。他们通过大量普通人的例子去描述 Apple Watch 令自己的生活变得更加高效、安全、健康、方便和快乐。这就是我们在如何去关注用户最本质需求上所需要做到的一点。
今天的分享就到这里,谢谢大家。
嘉宾介绍:
邵浩博士,vivo 算法专家,日本国立九州大学工学博士,现就职于 vivo,负责 AI 技术的产品化落地。曾任狗尾草智能科技有限公司人工智能研究院院长,带领团队打造了聊天机器人产品“公子小白”及 AI 虚拟生命产品“琥珀•虚颜”的交互引擎。曾任上海对外经贸大学副教授,硕士生导师。上海市静安区首届优秀人才,上海市人才发展基金获得者,杭州市高层次人才。任中国中文信息学会青年工作委员会委员,语言与知识计算专委会委员,中国计算机学会语音对话与听觉专业组委员,中文信息技术专委会委员。共发表论文 50 余篇,专利十余项,曾担任 AAAI,IJCAI 等国际会议委员会成员,出版了业内第一本聊天机器人著作,主持多项国家级及省部级课题,曾在联合国、WTO、亚利桑那州立大学、香港城市大学等任访问学者。
本文转载自:DataFunTalk(ID:dataFunTalk)
原文链接:AI手机产品化实践与思考
评论