AI 前线导读:“不要因为大牛的一句话,就把一切否定掉了。”
在 AI Challenger 2018 启动仪式上,联合举办方之一的创新工场董事长李开复在探讨深度学习时如是说。近年来,人工智能的热度有升无退,然而,实际上其在真实世界中的应用还面临着各种具体场景的局限。
AI Challenger 最大的希望就是,未来三年,能消除中美年轻顶尖人才之间的差距。从这里走出去的优秀选手,最终能成长为中国乃至世界 AI 产业的领军人物。那么,AI Challenger 培养人才、创造 AI 人才交流平台的愿望是否达到了预期呢?在现场交流中,李开复告诉 AI 前线记者,据他了解,在上一届竞赛中优胜的人才中,相当一部分人已经进入到阿里巴巴、腾讯、百度、搜狗等企业中,还有一部分人选择创业。
赛道设置:以“用 AI 挑战真实世界的问题”为基础
相比 2017 年举办的第一届 AI Challenger,AI Challenger 2018 联合了更多企业、大学和政府机构,开放了更多的数据集。今年的挑战赛由创新工场、搜狗、美团点评、美图公司联合主办,以“用 AI 挑战真实世界的问题”为主题,赛道也更贴近商业应用,参赛优胜者自然而然可以选择在相关领域创业。
2018 年 AI Challenger 主赛道包括观点型问题阅读理解、细粒度用户评论情感分析、应中文机器翻译、短视频实时分类、无人驾驶视觉感知;实验赛道包括零样本学习、天气预报、农作物病害检测、眼底水肿病变区域自动分割、迁移学习商品实例分割等。
各赛道聚焦问题要解决的问题、数据集与应用方向等具体介绍如下图:
观点型问题阅读理解竞赛:机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能客服、智能音箱、语音控制等场景,用 AI 实现基于文字、语音的人机智能互动。数据集包含 30 万问题以及相关文章与答案的语料集合,为业界最大。
细粒度用户评论情感分析竞赛:自然语言情感分析是机器理解人类表达和意图的重要领域。此技术可广泛应用于零售、电商、餐饮、服务等用户评价场景,用 AI 对用户反馈进行智能分析,监测用户喜好、满意度等。数据集包含 15 万条餐饮用户评论、6 大类 20 个细粒度要素标签,为业界最大。
英中文本机器翻译赛道竞赛:机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。数据集在 2017 年数据集的基础上,总量达到 1300 万句对,为业界最大;且其中具有上下文情景的中英双语数据达到 300 万句对,为机器翻译的研究提供了更多探索空间。
短视频实时分类赛道:近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱;基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产,监控、安防等领域。数据集包含 20 万条短视频、涵盖 63 类流行元素,为业内首个多标签短视频分类数据集。
无人驾驶视觉感知赛道:自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了 UC Berkeley DeepDrive(BDD)2018 年最新发布的 BDD 100K 数据集,这是全世界最庞大、最复杂的自动驾驶数据集,包含原始图片 1.2 亿张、标注图片 10 万张,涵盖多样天气和昼夜光照条件。
除 5 个主赛道之外,AI Challenger 2018 还开放 5 个实验赛道竞赛和相应的数据集,包括基于北京气象局 3 年气象数据的天气预报竞赛,世界上首个农作物病害检测竞赛和数据集,国内首个眼底病变医学图像检测竞赛和数据集,以 3D 虚拟图像训练机器“认识”真实世界物品的竞赛和数据集,让机器借助辅助知识学习从未见过的新概念的首个国际性零样本学习竞赛和数据集。
谈到今年赛事的设置,李开复提到了与几位创立 ImageNet 朋友的聊天,他们认为现在 kaggle 做得很好,但 AI Challenger 还是有着特殊意义的。这一是因为 kaggle 在国内遇到种种问题,不是每个赛道很畅通介入的;第二,kaggle 每个比赛使用用英文作为各种规则,还有很多比赛,如图像用英文标注,其实对中国理解度、参与度、落地能力局限性很大,而 AIChallenger 想要作为一个 AI 完整训练的平台,做一些事情大大降低中美人才之间的差距。
另外,AI Challenger 2018 的赛道设置更贴近实际应用落地,美团 CTO 表示,今年赛道的以解决现实世界实用场景为出发点,而如 NLP、计算机视觉等赛道,均为机器学习领域比较热门,但近年来少有突破性进展的研究领域,而 AI Challenger 的设置,就是希望汇集智慧,来共同解决切实的问题。
5 个主赛道数据集
图像属性数据集链接: https://challenger.ai/datasets/lad2018
英中翻译: https://challenger.ai/datasets/translation
场景分类: https://challenger.ai/datasets/scene
人体骨骼关键点: https://challenger.ai/datasets/keypoint
图像中文描述: https://challenger.ai/datasets/caption
数据集详情参见 AI Challenger 官网: https://challenger.ai/
本届 AI Challenger 整体奖金规模达到 300 余万人民币,数据集和竞赛 8 月 29 日正式开放,并于 12 月 18、19 日进行竞赛的总决赛答辩和颁奖。
AI Challenger 2018 的竞赛主要分为三个阶段。第一阶段比赛从 2018 年 8 月 29 日至 11 月 4 日,参赛队基于训练集、验证集、测试集 A,进行算法设计、模型训练及评估,并提交预测结果,系统会按照评测指标实时反馈分数,并更新榜单排名。个别竞赛采取参赛队提交代码、docker 的形式进行比赛。期间进行双周赛排名和评奖。
第二阶段比赛从 2018 年 11 月 6 至 8 日,开放测试集 B;各竞赛提交结果的时限不同。结果提交后即进入评分、排名、代码验证环节,个别比赛还将考察参赛队的算法运行效率。参赛选手在测试集 B 上的预测结果表现,将作为进入决赛的排名依据。
第三阶段于 12 月 18、19 日进行竞赛的总决赛答辩。
此外,AI Challenger 还将同步在线上和线下举行活动,线上实验赛道的数据集和竞赛持续建设并于每季度开放新内容,并将在北京、成都等 40 多个城市举办技术论坛。
“中国版 ImageNet”还要实现哪些小目标?
AI Challenger 被称为“中国版 ImageNet”,而相比 ImageNet,李开复表示,AI Challenger 的数据量更多,赛道设置也更多。今年,AI Challenger 为自己设定了几个小目标:
首先,AI Challenger 提出了“用 AI 挑战真实世界的问题”的口号,也就是说,AI Challenger 希望在数据集的建设上,既具有科研和学术上的前瞻性,也希望数据集能紧贴 AI 商业化、AI 落地的实际场景、实际需求,从产业需要出发,为学术研究和 AI 人才培养提供方向性的建议,也反过来帮助产业界更好地利用最新的科研成果,解决真实世界的最有价值的问题。例如,无人驾驶中的车道线识别问题,短视频的实时分类问题,细粒度的用户情感分析问题等,都是这一类的,从产业实际需要出发,又紧扣科研前沿内容的好问题。
第二,今年的 AI Challenger 希望花大力气,围绕 AI 数据集和 AI 竞赛,打造一个 AI 人才可以自由交流、开放讨论、取长补短、协作互助的世界级的平台。也就是说,AI Challenger 不仅仅制作、发布高质量数据,举办大规模的竞赛,还利用数据和竞赛,把人才吸引到这个平台上来,形成一种良好的人才生态,真正促进 AI 大环境的健康发展。
第三,在 AI 人才选拔、培养方面,继续开放式社区和平台建设,积淀人才。
目前中国 AI 产业仍存在很多问题,比如中国欠缺一些深入行业的 AI 公司,比如说类似 IBM Watson 这样的、能够针对企业需求开发数据这样的公司,这些应用在医疗、零售、教育等领域的都会产生价值。从业界发展来看,中国科技公司相比国际 AI 巨头公司,目前也有巨大差距。因此,AI Challenger 组委会希望本届挑战赛不仅仅是一场竞赛,更希望挑战者能从现实问题出发,创造出解决现实问题的成果。
“现在人人都在讨论人工智能,讨论深度学习,但我们应该多听取产业界的声音,因为还有太多场景需要探索,还有太多的实际问题需要解决,期待世界各地的 AI 人才汇集在 AI Challenger 平台上,用 AI 挑战真实世界的问题!”
评论