写点什么

AI 一周热闻:12306 数据泄露,嫌疑人被捕;BERT 提升文档检索性能至 1.5-2 倍

  • 2019-01-03
  • 本文字数:6353 字

    阅读完需:约 21 分钟

AI一周热闻:12306数据泄露,嫌疑人被捕;BERT提升文档检索性能至1.5-2倍
  • 12306 用户数据遭泄露,嫌疑人被捕

  • 华盛顿和 Facebook 新研究:平面图像秒变 3D

  • Alexa 助力亚马逊公司实现语音购物三倍增长

  • Facebook 推出新物体说明标记系统 Nocaps,超越 XOCO

  • 谷歌利用 BERT 语言模型将文档检索性能提升 50%至 100%

  • Facebook 进一步推动无监督机器翻译,目前可翻译语言已达 93 种

  • 关于中美人工智能竞赛

  • 计算增长趋势揭示更多关于高级 AI 的发展动态

12306 用户数据遭泄露,嫌疑人被捕


据北京市公安局网络安全保卫总队微博消息,北京警方破获一起侵犯公民个人信息案,网上贩卖 470 余万条疑似 12306 铁路订票网站用户数据的犯罪嫌疑人陈某,已被刑拘。


12 月 28 日,网传有人利用互联网贩卖 470 余万条疑似 12306 铁路订票网站的用户数据,引发社会广泛关注。中国铁路总公司官方微博回应“网传信息不实,12306 网站未发生用户信息泄露”。


此后经查,网络用户“deepscorpions”被抓获归案,为北京市西城区某科技有限公司员工陈某(男,25 岁,河北省邢台市人),其供述 60 余万条用户注册信息是其前期在网上非法购买所得,并非通过对 12306 官方网站技术入侵获取。其余 410 余万条铁路乘客信息,系其利用上述用户注册信息,通过第三方网络订票平台非法获取。

华盛顿和 Facebook 新研究:平面图像秒变 3D


12 月,华盛顿大学和 Facebook 的研究人员发表了一项最新成果:平面人物秒变 3D 模式,图片中的人物可以从平面中“跑出来”。如果再结合 VR 技术,照片中的人物可以动起来。


研究人员称这项技术为“唤醒”照片,并基于此开发了名为 Photo Wake-Up 的软件。在此项研究中,该团队最关键的贡献就是构建了可动画化 3D 模型的方法,该模型可匹配单张平面照片中的身体轮廓并处理被遮挡住的身体部位。

Alexa 助力亚马逊公司实现语音购物三倍增长

…这一增长亦与电子零售商日益巩固的数据储备关系密切…


零售巨头亚马逊公司在 2018 年圣诞节期间通过 Alexa 完成的购物订单总量,相较 2017 年同期增长达三倍。


重要意义:使用 Alexa 的使用量越大,亚马逊所获得的数据也就越多,这又将进一步提升这款个人助手的效率——这一点,我们已经在上周的“小冰”聊天机器人讨论中有所提及。这些数据最终可能被用于训练 Alexa 以进行更长且自由动更高的对话。


了解更多:


Amazon Customers Made This Holiday Season Record-Breaking with More Items Ordered Worldwide Than Ever Before (Amazon.com Press Release)

Facebook 推出新物体说明标记系统 Nocaps,超越 XOCO


佐治亚理工学院及 Facebook 人工智能研究所的研究人员共同开发出 Nocaps,这是“第一款严格且规模巨大的新物体说明标记系统,其中包含 600 多个新的对象类。”新对象说明测试机器当中对象识别系统所包含的对象数据已经大大超越 COCO 等原始图像—说明数据集的涵盖范围。


Nocaps 工作原理:这项基准测试包括一个拥有 4500 张图片的验证集与一个包含 10 万 6 千张图片的测试集,这些图片来自提供来自“Open Images”对象检测数据集,且每张图片都带有 10 条参考说明。对于训练集,开发人员可以使用来自 COCO 图像—说明对(其中包括涵盖 80 个对象类的 11 万 8 千张图片)以及 Open Images V4 训练集(其中包含 170 万张有边框图像,各边框所框定的对象类别总计 600 种)。在 Open Images 当中的 600 种对象类型中,“有 500 种是 COCO 说明中很少甚至从来没有提及过的。”


极高的实现难度: 研究人员写道,“据我们所知,Nocaps 是唯一一种最优成绩由人类所创造的先进图像标基准测试。”此外,Nocaps 所包含的每张图片明显拥有更多对象类型,多样性程度也更高。“在全部 COCO 图像当中,只有不到十分之一包含 6 个以上对象类,而 Nocaps 符合这一指标的图片比例则高达 22%。”


数据管道: 现代 AI 研究的核心之一,在于将更多精力投入到数据集或计算基础设施的处理当中。Nocaps 研究人员在创建数据集时面临的挑战是,他们必须有效引导众包工作人员了解如何对图像内容做出说明性标记。如果不加协助,这些参与者几乎一定不会使用数据集中 500 个与对象并不显著相关的关键字。


基准结果: 研究人员利用两种基准算法(经过增强的 Up-Down 与 Neural Baby Talk)对 Nocaps 进行了测试。他们还将数据集拆分成代表多种难度的子集——域内包含那些归属于 COCO 数据集的对象(从而确保算法可进行图像-说明对训练);近域范围包含一些 COCO 所不具备的对象;域外范围则包含与 COCO 内对象说明标记毫无关联的内容。他们利用多种不同的评估技术(CIDEr 与 SPICE)对系统效能进行评估,并根据人工说明评估这些系统以建立基准水平。结果表明,Nocaps 比 COCO 更具挑战性,且目前的系统仍难以在域外挑战当中发现评分较高的泛化特征。


测试结果:Constrained Bean Search 加持下的 Up-Down 算法与人类基准(通过 CIDEr 评估得出)在处理 Nocaps 验证集时:域内得分为 72.3(人类为 83.3);近域得分 63.2(人类为 85.5);域外得分 41.4(人类为 91.4)。


重要意义:人工智能的进步往往源自更强大的基准测试能力,这些基准能够凸显出现有算法的不足之处,并为研究人员开发新系统的工作带来激励与指导。从 Nocaps 基准研究中得出的结论是,我们还没能真正开发出能够将开放图像内对象表达与 COCO 说明标记结合起来的系统。研究人员们写道,“我们坚信,这项基准的持续增强将加快未来图像说明标记工作的发展速度。”


了解更多:


nocaps: novel object captioning at scale (Arxiv)


More information about nocaps can be found on its official website (nocaps)

谷歌利用 BERT 语言模型将文档检索性能提升 50%至 100%


谷歌公司已经展示了如何利用语言建模方面的最新创新显著提升 AI 系统在搜索查询中的表现,同时为用户生成相关度最高的答案。这项研究对网络经济具有重要意义,同时也表明在未来,基于规则的手写软件有可能被机器自身计算得出的系统所取代。


工作原理: 谷歌的研究结果显示,搜索问题完全可以被转换为适用于分层强化学习系统所能处理的形式——其中由某一 RL 代理控制多个其它 RL 代理,这些代理与提供答案及奖励的环境进行交互(例如搜索引擎用户的反馈),从而达成“重新调整问题,最终实现预期返回奖励(即正确答案)最大化”这一目标。此研究的关键部分,在于利用元代理及众多子代理将问题分解为分层问题——其中子代理是指利用数据集内与查询及输出重构相关的子集训练得出的序列到序列模型。子代理得出的候选查询将被发送至元代理,由元代理进行查询聚合并通过 RL 训练以选择其中评分最高的结果。


BERT 的惊人力量:研究人员们利用 question ansering 基准对这套系统进行了测试,并发现分层 BERT 系统“在未经任何修改而直接使用”的场景下即能得到最高分数。(奇怪的是,当他们利用自己的多代理方案对 BERT 进行强化时,却发现无法进一步提升其效能水平。这意味着此类作法是否真正有益于效能提升恐怕还需要深入研究。)


BERT 实现 50%到 100%效能提升:研究人员还针对三项文档检索基准测试进行了系统实验,分别为 TREC-CAR、Jeopardy 和 MSA。研究人员针对 BM25、PRF 以及 Relevance Model(RM3)以及其它两种基于强化学习的方案进行了基准测试,所有具体方法皆给出了喜人的效能表现。其中,当谷歌将其技术或 RM3 基准与“BERT”语言模式配对时,得到的效能提升最为显著。研究人员们还尝试利用 BERT 取代其中的元聚合器(BERT 是谷歌近期开发的一种功能强大的语言建模技术),他们以句子的形式提交查询内容,并将文档文本作为后续句子;接下来,他们利用经过训练的 BERT(Large)模型对正确的查询响应文档进行可能性排序。由此带来的效能表现令人惊喜。研究人员们写道,“通过利用 BERT 替代聚合器,我们将全部三套数据集(RL-10-Sub+BERT 聚合器)的效能提升了 50%到 100%。这是一项显著的改进。而如果不使用我们重新构建的代理,则效能将下降 3%到 10%(RM3+BERT 聚合器)。”


重要意义:这项研究表明了某一领域(例如 BERT 在语言理解领域的进步)如何直接服务于另一领域(文档搜索),这进一步凸显出 AI 系统的泛用性特征。此外,我们还借此了解到大型技术企业如何利用更多全学习方法这些以超大规模模型(例如 BERT)作为训练基础的方案越来越多地取代手写系统,从而在更多用途中发挥作用。


了解更多: Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation (Arxiv)

Facebook 进一步推动无监督机器翻译,目前可翻译语言已达 93 种


…Facebook 的零样本语言适应性研究表明,涵盖量越大、效果越出色…


近年来,人工智能研究界已经证明神经网络在语言间翻译领域的表现非常出色(特别是谷歌于 2016 年的神经机器翻译研究工作,https://ai.google/research/pubs/pub45610)。然而,这种翻译主要适用于存在大量可用数据,且其中包含并行语料库(例如将同一法律文本由一种语言翻译成另一种语言)的情况。如今,Facebook 在新研究中构建起一套独立系统,能够为 93 种语言生成联协多语言句子——其中包括“资源缺乏的语言以及少数民族语言。”这意味着通过一次性对多种语言变体进行整体训练,这套系统能够立足单一特征嵌入空间实现类似句子的相近表达——即使各语言之间差别巨大(甚至完全来自不同语系)。


工作原理:“我们在系统当中使用单一编码器与解码器,全部语言都共享同样的编码器与解码器。为此,我们构建起一份包含 5 万个联合字节对编码(简称 BPE)的词汇表,由源自对所有训练语料库的整体学习。这样的编码器不会对输入语言采取明确的信号要求,这意味着解码器将采用语言 ID 嵌入机制指定需要生成的语言,并在每个时间步进阶段连接输入与句子嵌入。”在训练期间,他们还采取更为具体的优化方式——将所有语言翻译成两种目标语言,即英语与西班牙语。


具备普适性的共享语言理解能力,一直被视为人工智能面临的一大关键挑战 Facebook 在这一领域做出的可行性证明,有望带来更多后续研究成果。


训练细节: 研究人员们使用 16 个英伟达 V100 GPU 进行模型训练,一次性批量处理 12 万 8 千个信令,而平均训练时间约为 5 天。


训练数据: “我们将 Europarl、United Nations、Open-Subtitles208、Global Voices、Tanzil 以及 Tatoeba 等语料库中收集到 93 种输入语言的训练语料库,这些语料库均可在 OPUS 网站上公开获取。”研究人员所使用的总训练数据包含 2.23 亿个并行语句。


评估-XNLI:XNLI 是一种评估标准,用于评估系统是否能够正确判断不同语言中的两个句子(例如一个前提性句子,一个假设性句子)之间的共通、矛盾或者中立关系。“我们提出的方法为除西班牙语之外的所有语言建立起零样本跨语言转换(即训练出英语数据分类器,并将其应用于所有其它语言)这一新型技术。我们的转换结果显示,其在所有语言当中都表现出强大的同质特性。”


评估-Tatoeba: 研究人员还根据 Tatoeba 语料库(即「社区支持的英语语句集加 300 多种语言翻译版本」)构建起新的 122 种语言相似性搜索测试集。研究人员们指出,“其相似性错误率低于 5%,这表明其下游效能很强。”此外,评估工作还对其中 37 种语言进行了评分,其中某些语言的可用训练数据非常有限。他们写道,“我们相信,这些低资源语言的翻译结果证明了联协训练方法的重大优势。”


重要意义:人工智能研究面临的最大挑战在于研究工作需要大量数据与大量计算机。语言翻译人工智能技术往往需要巨大的文件数据集,而像爱沙尼亚这样一个小国显然拿不出规模可观的数据,也不像其它主要语言那样能够得到全球众多研究者的关注。令人鼓舞的是,Facebook 的这套系统已经能够以 3.2%这一极低的误差实现从英语到爱沙尼亚语的翻译(从爱沙尼亚语翻译至英语时,系统错误率为 3.4%)。


其它重要意义: 翻译一直是一项极具挑战性的认知类任务,Facebook 的成果意味着我们已经能够设计出原始系统,从而在多种语言之间进行灵活转换。这体现出一些在弱计算系统(也就是人类大脑)中存在的迁移学习属性——当然,其实现方法仍然完全不同。


了解更多:


Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond (Arxiv)

关于中美人工智能竞赛


很长一段时间以来,中国与美国无疑是全球最为重要的人工智能大国,而两国间的竞争也将奠定接下来数十年中人工智能发展的基础。在他的新书中,投资人兼技术专家李开复认为,中国在人工智能的开发与部署方面有望赶上甚至超越美国。


中国的优势:李开复认为,人工智能正在由过去十到十五年中的“发现时代”、“深度学习”时代,正式转向“实施时代”。在下一阶段,我们不太可能迎来能够与深度学习相比肩的新成果,因此后续竞争将主要体现在现实场景下的人工智能部署与推广。中国将在这一新阶段具有重要优势——因为这能够充分体现出创业精神与工程人才这两大最值得称道的中国优势。另外,李开复认为数据将成为制约进步的关键瓶颈——而非专业知识,这同样对中国有利;毕竟中国的互联网巨头能够获得超越美国同行的数据总量。


并不尽然:《外交事务》杂志最近对李开复提出的两项观点做出了审查。目前,尚无法确定人工智能的发展单纯源自罕见的“突破性进展”外加长期实施行为;事实上,似乎还有一系列中小规模的创新(例如 AlphaZero)在发挥作用,而这类创新将长期存在。此外,吴恩达等专家也认为数据在人工智能研究领域的意义被“过度夸大”,事实上技术的进步将继续以算法、硬件以及人才作为根本性基础。


人工智能应受到全人类的推动:《外交事务》还评论称,中美竞争背后可能代表着零和游戏这一潜在风险。更重要的是,各国之间的“军备竞赛”思维有可能导致人工智能军事化水平的提升,这只会危及人类安全而非推动技术发展。由此引发的潜在灾难性后果或将导致 AI 先进性倒退,最终使得 AI 无法给全人类带来切实利益。虽然李开复也在文章中强调了避免人工智能军事化的必要性,但这本书的论点定位以及对中国统治地位的预测,很难让人不把这一切与军事对抗联系起来。


了解更多:


Beyond the AI Arms Race (Foreign Affairs)


AI Superpowers – Kai-Fu Lee (Amazon)

计算增长趋势揭示更多关于高级 AI 的发展动态

今年早些时候,OpenAI 表明在过去六年当中,成本最高的人工智能实验中使用的计算资源量一直在快速增长——每年增长约 10 倍。当时 OpenAI 方面认为,如此快速的发展速度可能代表着人工智能的重大进展或提早到来。但如今,Ryan Carey 与 Ben Carfinkel 却针对同样的事实给出了不同的解读。


可持续性: 近年来,计算成本的下降速度始终跟不上需求,因此最大规模的实验活动的计算成本每 1.1 到 1.4 年就会增长 10 倍。这意味着即使是资本最为雄厚的参与者,也将很快无法承受如此奢侈的研究实验;在未来 5 到 6 年内,规模最大的实验将耗费全美 GDP 的约 1%。这表明虽然进展可能很快,但如果不对经济结构进行彻底重组,这类研究工作将失去可持续性。


低回报率:如果说我们之前低估了计算需求量的增长速度,那么我们现在可能还高估了由此带来的投资回报(相较于人工智能的发展速度而言)。将二者相结合,意味着人工智能技术不仅发展速度不如预期(由于计算成本过高);而且相对于可观的资源需求,其实际效能也远远无法令人满意。


了解更多:


AI and Compute (OpenAI Blog)


Reinterpreting “AI and Compute” (AI Impacts)


Interpreting AI Compute Trends (AI Impacts)


作者 Jack Clark 有话对 AI 前线读者说:我们对中国的无人机研究非常感兴趣,如果你想要在我们的周报里看到更多有趣的内容,请发送邮件至:jack@jack-clark.net


原文链接:


https://jack-clark.net/2018/12/31/import-ai-127-why-language-ai-advancements-may-make-google-more-competitive-coco-image-captioning-systems-dont-live-up-to-the-hype-and-amazon-sees-3x-growth-in-voice-shopping-via-alexa/


2019-01-03 07:007606
用户头像

发布了 98 篇内容, 共 64.5 次阅读, 收获喜欢 285 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

java培训:JVM 锁的优化和逃逸分析

@零度

JVM JAVA开发

Java&Go高性能队列之channel性能测试

FunTester

Go 性能测试 队列 channel FunTester

微服务从代码到k8s部署应有尽有系列(二、网关)

万俊峰Kevin

微服务 RPC web开发 go-zero Go 语言

HTTP缓存协议实战

vivo互联网技术

缓存 浏览器 服务器 HTTP

Android 12 “致命”崩溃解决之路

阿里巴巴终端技术

android 崩溃分析 客户端 UC内核

3种基于深度学习的有监督关系抽取方法

华为云开发者联盟

文本检测 区域重组 文本检测算法 PixelLink TextSnake

mark: centos 镜像下载地址

webrtc developer

Linux centos

【C语言】一篇速通常量变量

謓泽

编程语言 C语言 2月月更 常量变量

如何通过测试用例保障交付质量

阿里云云效

阿里云 云原生 开发测试 测试用例 研发

云原生微服务技术趋势解读

阿里巴巴中间件

阿里云 微服务 云原生 中间件

web前端培训: Vue3面试考点分享

@零度

前端开发 Vue3

翟佳:从技术工程师到「网红」开源创业者

腾源会

开源 开源公司

后端新手如何从 0 到 1 打造一款 Apache APISIX 插件

API7.ai 技术团队

后端 插件 Apache APISIX APISIX 网关

【OH干货】如何向OpenHarmony社区提交代码

拓维信息

OpenHarmony

CRM重构项目

Mars

【高并发】深入解析Callable接口

冰河

Java 并发编程 多线程 高并发 异步编程

文本检测算法新思路:基于区域重组的文本检测

华为云开发者联盟

文本检测 区域重组 文本检测算法 PixelLink TextSnake

移动开发平台WorkPlus | 快速实现企业移动应用集成化

WorkPlus

开源demo| 你画我猜——让你的生活更有趣

anyRTC开发者

音视频 互动白板 开源demo 你画我猜 社交娱乐

X6在数栈指标管理中的应用

袋鼠云数栈

Java 大数据 前端

如何选择充血模型和贫血模型

蜜糖的代码注释

DDD 领域建模 2月月更

第十二节:Springboot多环境配置

入门小站

spring-boot

在线YAML转JSON工具

入门小站

工具

网络编程懒人入门(十四):到底什么是Socket?一文即懂!

JackJiang

TCP 网络编程 socket IM 即时通讯IM

启发式智能任务调度的探索

鲸品堂

算法 函数 任务调度

国内首款! 亚信科技数据库AntDB亮相中国信通院性能测试工具发布会

亚信AntDB数据库

前端技术分享:页面性能优化问题复盘

有道技术团队

前端

运维安全是指什么?如何做好运维安全?

行云管家

运维 网络安全 IT运维 运维安全

与Karmada一起航行:海量节点的多集群管理

华为云原生团队

容器 云原生 k8s k8s多集群管理 多云管理

大数据培训:Flink全链路延迟的测量方式及原理

@零度

flink 大数据开发

2022 年值得关注的 十大 DevOps 最佳实践

SoFlu-JavaAI开发助手

AI一周热闻:12306数据泄露,嫌疑人被捕;BERT提升文档检索性能至1.5-2倍_语言 & 开发_Jack Clark_InfoQ精选文章