写点什么

七牛云邵杰:视觉智能——视频云新时代

  • 2019-10-08
  • 本文字数:3921 字

    阅读完需:约 13 分钟

七牛云邵杰:视觉智能——视频云新时代

8 月 11 日,在以「AI+Cloud 赋能行业新未来」为主题的 NIUDAY 成都站中,七牛云人工智能实验室算法架构师,复旦大学博士邵杰为大家带来了关于「视觉智能——视频云新时代」的分享,帮助大家了解七牛云在 AI 方面的创新内容。



(图为七牛云人工智能实验室算法架构师邵杰博士)


本文是对分享内容的实录整理。



首先我们先来认识几个人。吉尔伯特是最早研究电磁现象的英国科学家。法拉第是真正的电磁专家,推动了电动机的发展和后面的工业革命甚至社会变革。其实真正让电力进入千家万户还有一个人,是贝尔德,他发明了电视机。有了电视机之后,千家万户都离不开电了。电力这个技术进入千家万户给我们带来巨大的变革,这与人工智能有什么关系呢?很多人可能听到斯坦福大学吴恩达教授有一个著名的论断就是人工智能就是新的电能。我很赞同他的说法,人工智能未来会充满生活每个角落,给我们带来巨大的变革。


七牛云最早做图片存储,后来还有 CDN、直播,把用户端采集的图像视频数据存储、管理、分发,整个我们叫做基础连接,都包括在里面了。这是前面一个阶段。后面一个阶段我们想做的是,有了数据管理后,通过智能技术知道里面的内容,理解里面的内容,让它产生更大的价值,这是 AI 对我们更大的意义。



视觉感知方式的巨大变化,左边的图是世界上第一台照相机,我想说照相机产生到现在已经将近 200 年的时间,人们感知世界的方式发生了一些变化。当然照相机有和没有之前有巨大的变化,之前人靠自己的大脑记录这个世界,看到什么东西可以大脑记录。有了照相机就可以拍照,再后来有了摄像机,这个根本上没有改变内容,还是记录下来,只不过有更好的记录方式,可以记录视频、可以电子化、可以存的更多更持久,但是要理解你这些多媒体数据的内容还是要靠人脑自己分析,自己识别、理解。


但是,最近这些年人工智能技术带来特别突出的变化,就是说现在的技术让我们在某些条件下可以让机器理解这个世界,这一点非常重要。国外媒体有一个论断,我们如果把人工智能技术大爆发归结于某个单一事件,就是 2012 年 ImageNet 竞赛冠军宣布那一刻,当年 Hinton 和 Alex 做出来的那套系统对计算机视觉方向产生了巨大的影响。直到现在我们用的很多技术都是在这个技术上的衍生和进化,这个技术后来又扩展到强化学习领域,给整个人工智能技术带来非常大的推动和变化。

七牛云人工智能实验室创新体系


上图最下面有三块内容,构成我们的 AI Video OS。AI 视频操作系统有三块内容,分别是 DORA、AVA、LEGO,七牛云最开始不但有存储还有图像处理,虽然是一些简单的编解码操作,但是正是因为简单的操作给我们带来了巨大的用户。很多用户有非常多的富媒体数据,自己存不现实,自己处理也不现实,当时我们就有 DORA 系统。现在我们扩展到智能多媒体 API,除了处理外还增加了识别和检索。因为 DORA 有非常好的扩展性和非常大的请求承载能力。AVA 是深度学习平台,是效率工具;LEGO 是富媒体知识库,让我们更好管理多媒体数据。


创新计划是针对高校学生和老师提出的创新计划。内容安全、城市大脑、智能媒资,下面我想展开说一下。

内容安全

这是我们特别关注的领域,尤其是互联网上内容安全变得越来越重要。这里遇到几个比较多的就是色情内容、爆恐内容,以及敏感事件的内容,面向的群体可能是互联网上的,还有广电新媒体,是多媒体内容里的相关类别。所以这是我们特别关注的一个方向,我们在这个方向已经深耕了很长时间。



现在针对这个专门推出内容审核的产品,你可以一键快通,管理起来非常方便,而且最重要的是有可视化展示和操作界面。现在很多互联网的公司只要涉及大量的多媒体内容的话,都有自我审查的需求。建这么一个团队是很不容易的,不管你是建高标准、高效率的人工审核团队,以及积累技术对接到自己平台都是很复杂的事。我们把可视化界面做好后,大家看到上面包括整个内容,还有结果,客户可以确认是违规删掉还是正常,覆盖了我刚才说的三个方面,色情、爆恐和政治敏感。


这个产品也是符合七牛云的理念「简单可信赖」,客户可以一键开通、方便操作,后面有很复杂的算法,我们都封装起来。依托七牛云强大的云存储资源,对模型不断的迭代更新,审核内容一直保持业内领先。

城市大脑


这是继互联网内容后又一重要的多媒体内容产生源头。最重要就是监控视频流,可以很清晰分析车、行人,现在的技术做到这个并不难。



上图是我们帮上海迪士尼度假区做的人流密度和人流走向的一个系统,是跟上海城市运营管理部门合作做的。可以实时监控迪士尼乐园出入口处人流的密度,达到他们设定的要求时就会做一些告警,通知管理人员进行疏导等等。



这是七牛云上海公司拍的,展示的人群光流,技术跟迪士尼类似,只不过这个看得更直观,可以实时对人流方向做预测,方便做管理和预警。



最后是帮上海城市管理部门做的智能交通,除了有前面的技术外,还有更多的展示和统计的结果。

智能媒资

原来广电行业,比如电视台积累了大量的视频多媒体数据。现在这些数据可能都是静静躺在那里,旧数据很难发挥价值,技术到现在这个阶段我们可以做一些事情。



这是一个视频,我们可以对视频里的内容进行分析,把里面出现的人,出现不同的目标,镜头做一下分隔,每一个场景等都识别出来。



除了识别各种场景和物体之外,其实特别重要的就是人的识别。针对人我们又专门做了一个系统。比如是这里是一个新闻内容,这里出现很多人物,我们系统对内容进行分析之后,可以把同一个人出现在视频里不同片断检索出来,根据相似度比对出来,这样可以方便的做一些查询,以及做进一步处理。



智能媒资还有很多应用,比如我们和上海一家知名企业世界杯期间做的交互娱乐的案例。足球比赛中系统会实时对画面进行分析,点球发生之前会做预测,左边是点球发生概率,快要发点球前数据发生变化。这样我可以把是否产生点球预测出来,然后跟观众做各种各样的互动就比较方便,比如说做一些竞猜等等。

七牛云自主研发的 AI Video OS


下面是一些基础的识别,可以是场景、物体、人脸各种属性的识别,还可以通过视频、光流、时间序列,甚至语义、文字做各种特征的识别。有了这些基础的识别之后,在上面一层结构化平台,其实是更高层的语义理解,比如说对事件的描述以及精确分割、知识图谱。像点球预测我们做了世界知名球员的知识图谱,除了可以把人识别出来,相关的历史数据,以及原来在哪儿踢球等关系都列出来。最上层是智能应用层,是直接解决用户需求,比如说对视频进行分类,对内容进行审核、检索推荐等等。这四个部分构成了 AI Video OS。


DORA 现在媒体有上百亿的请求,场景识别等上面都有,客户可以直接用。AVA 深度学习平台是我们的效率工具,我们在七牛对象存储基础上,结合容器技术搭建的 AVA 深度学习平台,可以在上面方便部署运行调试你的模型,并且可以直接对接海量的云存储,快速迭代这个产品。



用户无感知情况下可以把七牛云存储功能当做用户目录访问,也不用关心速度问题。再往上是分布式技术和容器技术支撑,再往上图计算,也就是现在主流的深度学习平台框架,以及我们自己研发的 Data Flow 数据处理的操作,上面是应用层,可以做各种各样的数据模型,右边是整个的管理流程。



我把这个图单列出来,这对我们来说还蛮重要,AI 平台有一个视频标注系统,可以很方便在云端对视频进行每一帧标注,以及事件每一帧的标注都很清晰,而且是云端,操作人员有一台电脑就可以操作。有了 AVA 平台就可以做了一些事情,像去年 ACM MM 会议上我们参加一个视频分类竞赛,拿了第二名。


今年 CVPR 2018 我们参加了 ActivityNet 竞赛。ImageNet 竞赛一个重要的维度升级版就是视频,之前视频数据只有几万、十几万量级,真正达到百万量级视频竞赛就是今年我们做的 Moments in time,这是第一个百万级的视频分类数据集,很特殊只有 3 秒,而且类别很抽象,里面有一个类别 open,你去开门、打开一个盒子、开柜子,只要 open 都放到一类里,很抽象,对人来说有很多经验很容易,但是对机器识别很难,解决这个事情要多个维度,要从 RGB 视觉维度做,光流维度做,目标检测维度抽特征,甚至还要做序列上的。我们决定参加这个的时候竞赛已经快结束,大概花一周时间做了七个模型,不同维度做七个模型。因为我们有一个 AVA 平台,可以分布式高效处理视频,可以分布式计算,所以七天完成这个任务,最后做到 63.7% 的准确率,拿到第三名。这展现了 AVA 平台的强大能力。


接下来提一下 LEGO,它是富媒体知识库,可以做三件事情,视频结构化描述,另外的知识图谱,有了这些之后就可以做大规模的数据检索。



三个系统怎么结合在一起的?和用户交互的出入口是 DORA,用户数据和用户反馈都走这里,DORA 是百亿级请求的多媒体 API,LEGO 是底层的支撑,可以对整个多媒体做很好的结构化存储和检索。AVA 平台是效率工具,有了这些数据,用户有一些需求让我们在 AVA 平台上快速转成用户需要的模型,并且直接部署在 DORA 上面,DORA 就可以给用户直接提供服务。这三个形成一个闭环,我们叫做可自我进化的视频 AI 生态系统。



这张图是我们经常在各种科幻电影里看到的未来的样子。要实现这个场景,可能今天提到的很多技术必不可少,比如说它是一个很复杂很立体的交通系统,这里各种自动驾驶系统必不可少,这种情况一旦发生什么事故,对于应急处理和预警要求非常高,城市大脑里面能不能做到预警和识别,以及各种联动的处理。随着世界技术的发展,我们相信未来肯定城市会更安全,人们生活也会更美好。


作者介绍:


邵杰,曾就职于公安部第三研究所并带领「搜神」团队,参加国际顶级的计算机视觉领域大赛 ImageNet、COCO 等,多次获得第一、第二名。他研发的人证合验闸机部署在新疆所有区县。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/vtIV5D4TrnWX3LotlOgzBA


2019-10-08 17:25897

评论

发布
暂无评论
发现更多内容

虾皮商品评论接口(Shopee.item_review)|虾皮API接口指南

tbapi

shopee API 虾皮商品评论接口 虾皮商品评价接口 虾皮评论接口 shopee 商品评论接口

Metasequoia 4 for Mac v4.8.6b激活版

iMac小白

如何又快又好、又便宜地开发体育赛事直播平台

软件开发-梦幻运营部

【第七在线】新品上市与清仓计划:商品计划的关键策略

第七在线

华为云Astro,让业务专家秒变“技术大拿”

华为云PaaS服务小智

低代码 华为云

现在大火的低代码是什么?有哪些优势?

高端章鱼哥

低代码开发 应用程序 JNPF

每日一题:LeetCode-240. 搜索二维矩阵 II

Geek_4z9ami

Go 面试 算法 矩阵 LeetCode

数据可视化:数据仪表盘的定义及设计

2D3D前端可视化开发

大数据 数据分析 数据可视化 可视化图表 数据仪表盘

权威认可,天翼云云原生一体机iStack斩获“2023云原生企业TOP50”第一名

编程猫

MongoDB中的分布式集群架构

EquatorCoco

分布式 索引 db 集群架构

Tower for Mac注册激活版下载(强大的Git客户端)

iMac小白

item_get-1688商品详情在跨境电商中的营销策略创新

技术冰糖葫芦

API

融云观察:给 ChatGPT 加上声音和脸庞,AI 社交的多模态试验

融云 RongCloud

AI 设计 API 社交 ChatGPT

Navicat Premium for Mac(多协议数据库管理工具) 16.3.4中文破解激活版

mac

数据库管理工具 苹果mac Windows软件 Navicat Premium 16

Visio Viewer for Mac激活版 查看和编辑Visio文件

iMac小白

【第七在线】媒介投产分析 Colony Brands每一个宣传画册运营产出收益

第七在线

1688商品列表数据接口(1688.item_search)

tbapi

1688商品列表接口 1688商品数据接口 关键词搜索1688商品接口 1688商品数据采集接口 1688API

「代码舞者」2023开放原子开发者大会——开源大侠秘闻

开放原子开源基金会

开源 开发者 算法

mac右键助手 MouseBoost Pro 3.3.4破解版

iMac小白

【第七在线】国际市场扩张与商品计划:跨越地域的挑战与机会

第七在线

【第七在线】服装企业的商品计划策略:提高销售和库存管理的关键

第七在线

React高手都会用的useMemo有什么用的?

互联网工科生

性能优化 React useMemo

海外云手机在跨境外贸中的作用

Ogcloud

云计算 跨境电子商务 跨境电商 电子商务

博睿数据参与支持2023年度证券期货业标准研究课题获评“优秀”

博睿数据

浅析 ArrayList

不在线第一只蜗牛

Java 开发语言

“基于inBuilder低代码平台开源社区版的应用开发”创新赛获奖队伍公示

inBuilder低代码平台

【案例】第七在线商品组合计划赋能安德玛每一个加盟商精准计划

第七在线

2024年市场上最好的免费开源工单管理系统六强

爱吃小舅的鱼

开源 工单管理

【第七在线】服装企业商品部关注的关键问题与解决策略

第七在线

热热热!开放原子开发者大会议题征集火爆!

开放原子开源基金会

Java 开源 程序员 开发者 算法

七牛云邵杰:视觉智能——视频云新时代_文化 & 方法_邵杰_InfoQ精选文章