免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

腾讯优图升级为计算机视觉研发中心,与《科学》宣布战略合作

  • 2018-09-06
  • 本文字数:3653 字

    阅读完需:约 12 分钟

9 月 6 日,在腾讯优图计算机视觉峰会上,腾讯高级执行副总裁汤道生宣布,腾讯优图实验室升级为腾讯计算机视觉研发中心,并首次公开该实验室最全面的应用落地案例;与此同时,腾讯优图实验室也正式宣布和《科学》期刊达成了战略合作,探讨通过学术奖金、产学研交流等多种形式,在人工智能前沿研究领域展开广泛合作。

腾讯优图实验室现在已升级为腾讯计算机视觉研发中心,聚焦的方向为计算机视觉研究。近年来,虽然计算机视觉在在技术和应用层面均取得了巨大的进步,但面临着的挑战和瓶颈也不可忽视。

“一些重要的思想,只有拥有“傻”的精神 ,执着的精神,才能被证明是对的。”斯坦福大学电气工程荣誉教授,密码学先驱,2015 年图灵奖获得者 Martin Hellman 在演讲中讲述自己获得图灵奖的过程时如此说道。在所有研究领域,包括计算机视觉,这种精神都同样适用。

与《科学》达成战略合作

峰会上,腾讯高级执行副总裁汤道生宣布国际化战略合作项目:与《科学》(Science)杂志达成战略合作,推动全球计算机视觉发展。

谈到与《科学》的合作的契机,贾佳亚说道,与学术的结合已经成为人工智能领域的趋势,腾讯渴望建立与国际上紧密的合作关系,腾讯将研发和场景结合,旨在为中国科研人员引入最先进的学术平台。另外,《科学》的科学家资源丰富,通过将腾讯的实践应用运用到科学家们的研发和教学中,建立起产业和研究联系的机制,以促进中国人工智能发展。

但关于与《科学》杂志的具体合作规划,腾讯未透露相关信息。

腾讯优图最全公开应用落地

腾讯优图实验室成立于 2012 年,是腾讯三大人工智能实验室之一,聚焦计算机视觉,专注在图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地。相比 AI Lab,优图实验室更偏应用,后者更多地做基础研究,腾讯公司对这两者的投入比例大概为 1:1。而三大人工智能实验室之一的微信 AI 团队,则主要聚焦于微信中的 AI 功能应用。

据腾讯优图实验室总经理、杰出科学家贾佳亚介绍,目前,腾讯优图每日服务调用次数达 3 亿次,主要调用技术为图像。

在技术上,优图重点专注于图像技术及人脸技术的研究及应用探索。图像技术包含图像识别、智能鉴黄、OCR 技术、图像分割以及超分辨率技术等。人脸识别包含人脸配准追踪技术、人脸核身技术、活体检测技术、海量人脸检索技术等。

目前优图 AI 技术已经广泛应用在零售、工业、社交娱乐、社会公益、道路感知、金融、鉴黄、安防、医疗、政务等领域,在手机 QQ、QQ 空间、QQ 音乐、微信、广点通、全民 K 歌、腾讯觅影等产品中落地,并与滴滴、公安部门、快递等行业已经有了合作案例。其中,智能医疗和自动驾驶是该实验室今年刚涉足的领域。

医疗 AI 案例

2017 年,腾讯优图实验室借助图像识别、深度学习等技术,在肺癌、糖尿病性视网膜病变早筛上取得显著进展,并通过腾讯首个医疗 AI 产品“腾讯觅影” 进入大规模的临床预试验,在早期肺癌识别,敏感度 (识别正确率) 达到 86%以上,在良性肺结核的特异性 (识别正确率)超过 86%;糖尿病视网膜病变筛查,筛查准确率提升至 96%,几乎接近医生的诊断结果。

安防 AI 案例

优图天眼系统:以安防需求为导向,基于多场景海量数据库,自研深度学习和集群计算的人脸检索引擎,面向寻亲、缉查布控、刑侦办案、安防活动、社会服务等多场景推出的智能化海量人脸检索解决方案。优图天眼支持亿级别库的人脸检索系统,毫秒级识别速度,迅速完成目标人脸和名单照片库的比对,及时返回可疑人脸数据,实现报警通知。

  

智慧零售案例

腾讯优 Mall 智能零售系统:腾讯优图实验室联合腾讯云打造。基于腾讯优 Mall 智能零售系统,通过人脸检索、识别技术,识别进店顾客身份,并为老客户进行推荐,最后通过“刷脸”完成支付动作,提升消费者体验,并帮助商场优化购物动线、店铺位置、货架陈列,提升导购推荐效率以及优化广告人群定向属性等,促使线下门店实现数据化和智能化,改变门店运营方式,让门店具有思考能力。

目前,优 Mall 智能零售系统已经通过百丽进行落地。

金融,政务 AI 案例

FaceIn 人脸核身解决方案:一种通过用户的一段自拍视频(或一张自拍照)与另外一张照片(可来源于身份证或事先留存自拍照)之间的 1:1 人脸验证来确认用户身份的技术手段,主要包括身份证 OCR 、活体检测、人脸比对。优图人脸核身服务是业内首家在金融行业(微众银行 APP)全量上线的核身服务,既能满足用户实名认证的需求,还能在识别用户为本人的同时判断是否为真人。目前,优图人脸核身服务已在微众银行、联通、滴滴多个产品中落地使用,同时被应用在政务领域,如“远程缴税”“远程领取社保”。

互联网 AI 案例

为短视频拍摄、直播、图像处理工具等互联网产品推出了包含「主播核身 + 美颜特效」的视频直播解决方案,通过主播的自拍视频(或一张自拍照)与另外一张照片(可来源于身份证或事先留存自拍照)之间的 1:1 人脸验证来确认主播身份,防止主播身份造假。美颜特效模块包含了美容美妆、滤镜、动态贴纸、人脸融合等一系列与美相关的能力。目前优图视频直播解决方案已在 B 站、东方财富、快看漫画等多个产品中落地使用;安全审核解决方案基于优图智能鉴黄技术、暴恐图片识别技术、OCR 技术和人脸识别技术,可以精准识别出图片中的露点 & 不雅行为等色情内容、暴力恐怖内容、恶意文本以及政治敏感人物,针对广告、社交、游戏、直播、短视频等行业存在的 UGC 内容,辅助甚至代替人工过滤垃圾,提高审核效率。目前优图视频直播解决方案已在斗鱼、龙珠、映客等平台上线使用。

物流业 AI 案例

优图实验室与顺丰达成合作,针对运单的收寄件人电话号码、和收件人省市区地址信息进行 OCR 自动识别信息,再结合自有运单数据库,可以自动匹配到更完整更充分的运单各字段信息,大幅提升运单信息录入效率和物流资源的调度匹配能力,支持印刷体和手写体识别,可以高精度识别身份证、名片、银行卡、行驶证驾驶证等卡证类,也支持票据、运单等定制化场景的识别,可以有效的代替人工录入信息的场景。

     

(优图 OCR 技术与竞品数据比较)

  

(AI+ 社交娱乐 优图 Facekit,目标是摆脱手机端对于三维的依赖,希望通过单目摄象头,完成整个脸部追踪和三维重建)

其中,在 AI+ 社交娱乐领域,腾讯优图此前的开发集中在 3D 人脸、人脸分析和人脸编辑方面,比如用新的方法改变人的外貌、改变人的皱纹等。但今年,优图新做的技术包括人体分割,达到了 96% 的准确率;在人体关键点追踪方面,超过 80 个点的追踪标准的误差率降低至 0.48;人体重建方面,优图可以重建 3D 人脸,这对于游戏行业的应用非常巨大。

另外,优图进行的新探索还包括人体三维和三维重建。很多游戏里面我们需要大量的动作捕捉,3D 建模是非常昂贵的过程,我们要让娱乐设备姿态捕捉要人体建模。传统的游戏姿势捕捉和人体建模成本高昂,优图则可以通过一个 Video 就能实现一个 3D 建模的匹配和完成,这包括几个重要的方面:一是人体重建算法,第二是动作捕捉的算法,优图在人体重建可以达到 53 毫米的精度,动作捕捉是 74 毫米的精度。在游戏的设计和研发过程中,这会产生非常大的作用。

  

以上二维码为腾讯优图与《科学》杂志合作上线的 AI 产品体验小程序,有兴趣的朋友可以尝试下。

计算机视觉领域仍有待突破

正如斯坦福大学电气工程荣誉教授,密码学先驱,2015 年图灵奖获得者,现如今已 70 多岁高龄的 Martin Hellman 在演讲中以几个自己的个人经历,见证了计算机视觉技术跨世纪的发展。

19 世纪 70 年代,Hellman 在 IBM 工作时有一个关于 OCR 识别邮政编码的项目。当时,这对他来说是个巨大的挑战,因为当时 OCR 一分钟只能识别一个邮编,比人的速度还慢。但是,随着计算机视觉技术的发展,这已经不是问题,因为 OCR 识别邮编的速度已经提高到 5s 识别一个邮编,现如今更是花 0.5s 的时间就可以做到。

但计算机视觉虽然历经了六十年的发展,成为备受关注的人工智能关键技术之一。但是到今天为止,真正的大规模成熟应用还是屈指可数,比如指纹识别、车牌识别或者数码相机里面的一些人脸检测技术。出现这种现象,很大的原因是技术的局限,很多技术还面临着挑战。以 Object detection(物体检测)任务为例,我们有从 Fast R-CNN 、Faster R-CNN、R-FCN 到 FPN 等各种不同的目标检测器,但 2016 年 ILSVRC 最好的 MAP 仅有 0.6627。包括几个最常用的落地产品,如视频监控,也并非完全成熟,还存在着视频数据采集单一,视频中个体尺度各异、视频分辨率低、个体部分遮挡、拍摄视角变化等问题都会影响到算法的实际应用效果,现实世界的识别更加复杂,存在的挑战和困难也更多。

这些例子表明,计算机视觉目前还只能用于一些对准确率要求不是特别高的场景,还远没有达到大规模应用的程度。但随着越来越多的企业和研究资源进入这一领域,正如 Martin Hellman 所说,“一些重要的思想,只有拥有“傻”的精神 ,执着的精神,才能被证明是对的。”计算机视觉领域出现下一个技术或应用上的突破,同样也需要这种精神。

感谢蔡芳芳对本文的审校。

2018-09-06 19:004944
用户头像

发布了 42 篇内容, 共 14.4 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

面部表情识别技术在人机交互中的应用

来自四九城儿

企业级私有化部署即时通讯,完美替代SaaS平台

WorkPlus

如何使用LLM实现文本自动生成视频

3D建模设计

Python 人工智能

如何高效实现混合App开发?

FinFish

混合开发 小程序化 混合app 超级App开发

解码全栈

互联网工科生

开发者 全栈工程师 全栈开发

悦数图数据库与 keyarchOS 完成浪潮信息澎湃技术认证

悦数图数据库

数据库 图数据库 分布式图数据库

这款Linux不收费,却赢得了江湖!

高端章鱼哥

Linux 开源 npm

LangChain + Streamlit + Llama:将对话式AI引入本地机器

3D建模设计

人工智能 LLM

近期大型攻防演练观感及未来攻防趋势判断

墨菲安全

安全 软件供应链

OpenTiny Vue 3.10.0 版本发布:组件 Demo 支持 Composition 写法,新增4个新组件

OpenTiny社区

前端 开源项目 UI组件库

UltraEdit mac(文本编辑器) v22.0.0.18中文版下载

mac

UltraEdit 文本编辑器 苹果mac Windows软件

Adobe联创去世,没他就没有PDF,乔布斯也因他逆风翻盘

Openlab_cosmoplat

PDF

使用 ChatGPT 的代码解释器进行数据科学的 5 种方法

3D建模设计

Python 数据分析 ChatGPT

学习 ChatGPT 一切基础知识的绝佳资源

3D建模设计

人工智能 ChatGPT LLM

百度智能云推出828大促活动,文心AI作画低至9.9元

科技热闻

从FTP到SFTP,哪个才是跨国传输大文件的最佳方案

镭速

大文件传输 传输大文件 跨国大文件传输

第二周作业

大肚皮狒狒

一云多芯能力再获认可!天翼云助推政企上云行稳致远!

天翼云开发者社区

云计算

提升研发效能的低代码思路

高端章鱼哥

自动化 研发效能 低代码 JNPF

2023.10.14-价值最大化沙盘演练

ShineScrum捷行

使用three.js与WebGL相比有什么优势?

3D建模设计

WebGL three.js

图数据库有哪些:知名图数据库产品和应用场景介绍

悦数图数据库

数据库 图数据库

Dreamweaver 2021中文版下载 网页编辑软件dw2021纯净版

mac

苹果mac Windows软件 Dreamweaver 2021 网页编辑软件 DW021

业内首份!电信和互联网数据安全标准汇编发布(附下载)

极盾科技

数据安全

面部表情识别的伦理问题与应对策略

来自四九城儿

面部表情识别技术的最新研究进展

来自四九城儿

企业级即时通讯协作和移动应用管理平台哪个品牌好?

WorkPlus

如何使用Redis实现分布式锁?

王磊

Java Java面试题

如何设计自动化测试落地方案

老张

自动化测试 测试方案

腾讯优图升级为计算机视觉研发中心,与《科学》宣布战略合作_腾讯_陈利鑫_InfoQ精选文章