2018 年 9 月 16 日,由 AICUG 人工智能技术社区、Datafun 社区、博学联合主办的 2018 AI 先行者大会于杭州召开,来自阿里巴巴、科大讯飞、微软、腾讯、平安壹钱包、宜信、地平线、格灵深瞳等企业的数十名技术专家向参会者分享了国内不同行业公司的 AI 实践经验。本文精选其中部分演讲进行总结回顾。
阿里文娱:视频 AI 在优酷搜索推荐的应用与挑战
阿里商业机器智能算法团队及优酷算法技术团队负责人永叔在演讲中分享了视频 AI 领域当前面临的挑战和优酷将搜索推荐算法应用于视频领域的尝试。当前视频搜索和推荐面临的挑战主要来自两方面:
- 多模态视频检索召回。早期优酷做视频搜索的时候主要使用视频的标题、描述和介绍来做视频的检索,但用户的诉求远不止于此。在优酷最近的一次用户调研问卷中,超过 1/4 的用户反馈在搜索视频时不知道该输入什么关键词,有时候用户只能提供非常有限且模糊的关键词信息,当前只有文本和语言信息的检索已经无法满足用户需求。因此视频搜索推荐面临的问题已经变成了如何基于文本、图像、视频、声音等多种异构信息的数据源提供高质量的信息检索;
- 监管部门对内容安全的审核需求。所有内容网站其实都面临同样的挑战,监管部门的审核标准通常是模糊且不确定的,需要大量人工参与,如 Youtube 的人工审核团队已经超过 1 万人。对于优酷来说,在内容安全面临的问题还包括超大规模数据带来的巨大开销、中文谐音双关歧义、跨媒介多模态识别等。永叔介绍了一些可能的解决思路,包括将小样本学习和领域知识相结合,采用内容质量分级方法对不同内容设置不同的审核标准(包括制定分级标准和构建分级样本库)。
视频 AI 技术在优酷业务线上的应用主要包括图像视频分类、物体检测(人脸检测、风险对象检测)、视频版权保护(视频和音频指纹技术)、视频语义等。大量的分类任务导致人工标注成本急剧上涨,单位人工标注成本近 5 年内已经涨了 3 倍。优酷尝试通过预训练模型并在不同任务间共用参数权重来提高多任务分类的训练效率,借助 Active Learning 提高标注效率、降低人力标注的成本,同时辅以 Fewshot Learning 和迁移学习的方法,用于解决仅有少量截图的视频识别问题。
科大讯飞:语音大数据下的智能人机交互
科大讯飞智能服务 BU 创新业务总监刘国光总结了当前智能语音交互技术的发展现状和未来面临的挑战。智能人机交互正在引领新的产业变革,语音作为入口已经得到业界的广泛认同。当前智能语音客服能够做到 5 个人工带 1 台机器,而未来 3-5 年的目标是 1 个人带 5 台机器。智能服务存在的技术难点主要包括声学(噪音、异常输入、方言、领域优化、多语言混合)、语义及知识(多轮对话、统一智能知识库、自由及复杂表述、知识挖掘、人机协同)。刘国光认为,当前深度学习仍然在持续给语音识别带来红利;在深层语义理解上,当前对效果贡献最大的仍然是基于大量数据的有监督学习,人工优化工作占比超过 60%,效率比较低,科大讯飞尝试通过引入弱监督、无监督学习来提升知识库建库的效率,减少客户投入,原来冷启动场景的成本需要 10 个人月,现在已经下降到 7 个人月,未来 3 年以内希望能降低到 1 个人月。刘国光还分享了近三年 AI 话题的变迁,2016 年都在谈 AI 相关的技术,2017 年则是应用场景,2018 年业界关注的是到底新的算法、新的模型能带来哪些可衡量的用户价值。
微软亚洲研究院:MSRA 近期在物体检测领域的进展
实例识别是计算机视觉中存在已久的基础研究问题。 最近,随着深度网络和大规模数据集的引入,该领域取得了重大进展。 微软亚洲研究院 Lead Researcher 代季峰分享了最近 MSRA 在物体检测领域的最新进展,包括 R-FCN 物体检测、用于几何平移建模的可变形 ConvNets、用于视频识别的深度特征流,这些研究成果已经在微软内部广泛应用,并帮助 MSRA 在多项国际比赛(包括 COCO 检测和分割挑战赛等)中取得了很好的成绩。代季峰表示,通用物体检测仍然是计算机视觉领域一个开放的未能有效解决的基础研究问题,当前存在的挑战还包括:识别外观容易发生变化的物体、在移动设备上做到低延迟识别、对全景场景的理解;将新的研究成果应用到产品中需要先经过仔细的调查和原型设计。
腾讯:智能客服的问题分解和解决思路
腾讯数据平台部算法高级研究员陈松坚以腾讯小知为例,从 AI 实践角度出发,总结了智能客服这类 AI 应用是如何从客户需求逐步落地成实际可用的应用。首先从智能客服的使用场景和客户的痛点出发,将智能客服拆解成三个大问题,分别是知识怎么来、怎么问答和怎么持续学习;然后着重针对怎么问答这个问题进行细分,分为意图明确问题,意图不明确问题和知识点外问题。针对意图明确问题,陈松坚详细介绍了问句匹配模型的解决方案及其进化方向,分别是基于字面匹配的通用模型,基于语义匹配的深度模型,和针对语料不足的场景如何使用迁移策略。而对于意图不明确问题,则需要利用知识图谱来对行业问答库进行建模,然后结合多轮对话模型实现带有上下文记忆的对话逻辑。对于知识点外问题的处理,陈松坚介绍了如何利用 NLP 技术快速实现简单有效的判别器来区分闲聊和专业意图,从而完成一个基本的客服问答框架。
由于演讲的内容庞杂,本文无法全部总结,演讲的视频和 PPT 后续会陆续发布到 AICUG 的官方微信公众号上,感兴趣的同学可以关注。AICUG 人工智能技术社区成立于 2018 年 3 月份,每月在不同城市举办技术沙龙,并有走进名企 AI 技术开放日活动,本届 AI 先行者大会是社区主办的第一次大会,10 月起将在硅谷同步开展线下沙龙。
评论