腾讯公布最大多标签图像数据集ML-Images论文详解

2018 年 9 月，腾讯 AI Lab 开源 “Tencent ML-Images” 项目。近日，腾讯在 arxiv 上发布论文，详细介绍了该数据集的构成以及评价标准等内容。

该项目由多标签图像数据集 ML-Images，以及业内目前同类深度学习模型中精度最高的深度残差网络 ResNet-101 构成。ML-Images 包含了 1800 万图像和 1.1 万多种常见物体类别，在业内已公开的多标签图像数据集中规模最大，可以满足一般科研机构及中小企业的使用场景。

ML-Images 数据库代码： https://github.com/Tencent/tencent-ml-images
论文地址：https://arxiv.org/abs/1901.01703

美国禁止华为芯片子公司向中国输送技术

据《华尔街日报》报道，美国禁止华为在美国的芯片子公司 Futurewei 将技术出口到中国。

2018年6月份，美国商务部表示，出于国家安全考虑，拒绝 Futurewei 续签技术出口许可的申请。华尔街日报获取的相关文件显示，Futurewei 被拒绝的出口许可申请涉及电信与软件技术，包括高速数据传输数据技术。

对此，Futurewei 提出了异议，并对美国商务部表示，如果未获得申请，可能搬迁研发中心。

任正非回应孟晚舟事件

1 月15 日，华为公司创始人兼 CEO 任正非在公司深圳总部接受国外媒体的采访。对于其女儿、华为CFO孟晚舟，任正非未发表过多评论，仅表示十分想念女儿，相信正义会得到伸张，也相信美国和加拿大的法律体系是开放的，他将等待法院的判决。

任正非称，企业应以客户为中心，必须遵守商业规则，并表达了对美国总统特朗普的认可。他说：“我仍相信他是一位伟大的总统。从某种意义上说，他大胆地削减了税收。我认为这对美国工业的发展是有利的。”

除此之外，任正非表示，2019年对华为来说可能是困难的一年，营收增长预计将低于20%。他说，华为全年的营收目标是1250亿美元。目前，华为尚未公布2018年的总营收，但华为轮值主席徐直军去年11月曾对CNBC表示，销售额将超过1000亿美元。

高通拒绝向苹果出售芯片

外媒消息，苹果公司表示，希望在 iPhone XS，XS Max 和 XR 中使用高通调制解调器，但在苹果起诉其许可做法后，高通拒绝出售这些调制解调器。

“最终，他们不会支持我们或向我们出售芯片，”苹果公司COO杰夫·威廉姆斯在 1 月 14 日向美国联邦贸易委员会作证时透露。

听证会上，苹果首次公布高通向苹果收取的授权费用。据透露，高通向每部iPhone收取7.5美元的授权费。

高通公司目前正在接受审判，被指控从事垄断行为，包括收取异常高的专利费率，拒绝向其他芯片制造商授予专利许可等。

微软拿下五角大楼17.6亿美元合同

美国时间 1 月 11 日，五角大楼表示，微软已获得其价值 17.6 亿美元的五年期合同，为国防部、海岸警卫队和情报部门提供企业服务。目前，合同的细节未知。

据初步判断，该项目与此前备受关注的联合企业防御计划（JEDI）关联较小。JEDI 旨在将美国国防部的大规模计算系统转移到云中。这一合同价值100亿美元，占当前云计算市场年收入的25%。该项目将使340万用户和400万台设备脱离私人服务器并进入云端。

Uber AI Labs公布POET系统，教会AI自己进化

当机器可以自行设计和完成自己的课程时会发生什么？最近，Uber AI Labs 的一份新研究论文中探讨了这一想法。研究人员介绍了Paired Open-Ended Trailblazer（POET），该系统旨在创建一种机器，它们可以在集体优化解决方案的同时进化出一系列多样化且复杂的环境挑战。“POET的一个重要假设，是通过分散的、开放式的过程，更有可能找到可以在非常复杂环境下完成任务的方法，而不是直接尝试在充满挑战的环境中进行优化，”他们写道。

POET工作原理：POET 基于“开拓者”算法，从“一个简单的环境（例如平地上的障碍路线）和随机初始化的重量矢量（例如用于神经网络）”开始。然后，算法在循环迭代中执行以下三个任务：从当前活动的环境生成新环境，使用各自的环境优化配对代理，并将当前代理从一个环境转移到另一个环境。研究人员使用 OpenAI 的进化策略和其他强化学习算法来计算每次迭代。

“金发姑娘”环境：POET 试图创造我称之为“金发姑娘环境”的东西，即“当新环境产生时，除非对于当前环境还说难度适中，它们不会被添加到当前的环境中”。在训练期间，POET 创建了一组扩展环境，这些环境是通过调整代理需要遍历的 2D 环境中的各种障碍而生成。

阅读更多： Paired Open-Ended Trailblazer（POET）：无限创造更复杂和多样化的学习环境及其解决方案（https://arxiv.org/abs/1901.01753）。

谷歌训练 AI 学习图像语义分割对象

约翰斯·霍普金斯大学，谷歌和斯坦福大学的研究人员创建了一个名为 Auto-DeepLab 的AI系统，该系统学会了对图像进行有效的语义分割。图像语义分割是计算机视觉中的一项具有挑战性的任务，需要在图像中标记目标并理解其边界。此系统使用分层搜索功能，学习提出特定的神经网络单元设计，以通知分层计算，并确定将这些单元链接在一起的整体网络架构。

“我们的目标是学习可重复的单元结构和网络结构的完美结合，专门用于语义图像分割，”研究人员写道。

效率：神经架构搜索方法的一个缺点是其固有的计算开销，许多技术需要数百个GPU 来训练系统。研究人员表示他们的方法是有效的，能够使用 P100 GPU 在3 天内找到用于“城市景观”数据集的语义分割的良好性能架构。

结果：该网络提出了有效的设计，城市景观数据集的结果证明了这一点。“使用额外的粗略注释，我们的模型 Auto-DeepLab-L 无需在ImageNet 上进行预训练，测试性能就达到了 82.1％，优于 PSPNet 和 Mapillary，并获得与 DeepLabv3 + 相同的性能，同时多添加计算减少 55.5％。“该模型在 PASCAL VOC 2012 和 ADE20K 上达到最优性能。”

为什么重要：神经架构搜索为 AI 研究人员提供了一种计算自动化的方法，因此，NAS 从解决监督分类问题扩展到更复杂的任务（如语义分割）将使我们能够实现更多AI研究的自动化，让研究人员提出更多新的想法。

阅读更多：Auto-DeepLab：分层神经架构搜索语义图像分割（https://arxiv.org/abs/1901.02985）。

南澳大利亚大学创建无人机手势数据集

南澳大利亚大学的研究人员创建了一个包括 13 个手势的数据集，这些手势被设计为“适用于基本的无人机导航和普通飞机和直升机处理手势信号的命令，包括悬停、向左移动、着陆、从特定方向着陆、减速、向上移动等。

数据集：数据集包括“从在麦田中慢速和低空飞行的旋翼机无人机（3DR Solo）上收集的镜头”。该数据集由分布在 119 个视频中的 37,151 帧组成，这些视频以 1920X1080的格式，25 fps 被记录，包含 8 个人类演员不同手势的视频。

数据集：该数据集将很快在 GitHub 上开源：https://github.com/asankagp/UAV-GESTURE

实验baseline：研究人员在数据集上训练基于姿势的卷积神经网络（P-CNN），获得91.9％的准确率。

为什么重要：无人机将成为可以最直观地看到基于软件的AI技术进步对现实世界产生影响的领域之一，像 UAV-Gesture 这样的数据集创建（以及最终发布）将提高人们构建可以部署到无人机和其他平台上的智能系统的能力。

阅读更多：UAV-GESTURE：无人机控制和手势识别数据集（https://arxiv.org/abs/1901.02602）。

原文链接：

https://jack-clark.net/2019/01/14/import-ai-129-ubers-poet-creates-its-own-curriculum-improving-old-games-with-esrgan-and-controlling-drones-with-gestures-via-uav-capture/

创作场景

AI 一周热闻：任正非回应孟晚舟事件；高通拒绝向苹果出售芯片