点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

唐文斌:从清华姚班到 Face++ 创业,我是怎么开始做机器学习的?

  • 2018-07-16
  • 本文字数:4124 字

    阅读完需:约 14 分钟

嘉宾简介

唐文斌,Face++ 旷视联合创始人兼 CTO,2050 志愿发起人。清华大学计算机系研究生,ex OIer&ACMer,ACM/ICPC 2008 WorldFinals 排名第 6,首届“Yao Award”金牌获得者,北京市海淀区十大杰出青年。

2018 年 4 月 13 日的下午,二叉树团队与另外两个 2050 志愿者团队一起等待着唐文斌的到来。他将以 Face++ 旷视 CTO/2050 大会志愿发起人的身份接受一次采访。

Part I:对人工智能如是说

Q:您是怎么开始做人工智能的?

我其实不是特别喜欢人工智能这个词。因为我们现在做的所有的“AI”,所有的人工智能,本质上都是机器学习,其实都是用一个数学模型去定义我们最后要优化的目标是什么,然后去最小化这个 function,最后我们去学出了一个东西,对吧?但我们现在真正对所谓的智能的理解,其实还在一个非常浅薄的程度上。

印奇和我差不多是从 2011 年开始关注深度学习。我大学期间做的事情还是偏非深度学习。我研究生的方向做的是社交网络的数据挖掘,比方说我能在社交网络去猜这两个人是什么关系,这个人是这个人的老师,这两人是家人,根据你的社交网络上的一些行为去猜你的关系;再比如说去你去 follow 了一个人之后,这个人会不会 follow back?我们做了很多这样的一些预测,其实也很有趣。

后来我的导师唐杰老师有半年要去国外,就让我去 MSRA(微软亚洲研究院)实习。我去的组以前叫 web search and mining,做文本搜索和挖掘的,然后去了之后小组说我们要改名了,改成 social media search,sms 小组,要开始做社交媒体搜索,要开始对图像、对视频进行基于内容的检索,他说你感不感兴趣?

我说来都来了,那就做呗!我们当时做了一个小的、房子的搜索引擎,比方说你拍一张照片是埃菲尔铁塔,然后我可以帮你搜出来埃菲尔铁塔的各种其他的照片。把它做出来之后,你会发现说你做的技术它能够很明确的有个呈现,这件事情就会很有成就感,所以会很好玩。

印奇当时也在微软做图像的一些工作,所以我们俩开始聊得比较多,就说图像这个方向很有意思。我们觉得未来的机器人一定都会需要一双眼睛,像人眼一样去看到这个世界、去看懂这个世界,把这些信息能够提取出来,这件事情现在的技术是在快速的进步当中的,我们觉得未来可以是作为我们创业的一个方向。我们反正聊的比较多,后来到某一个时间点的时候也开始付诸行动了。

那时候深度学习还不太热。然后我们开始关注的时候也不太热,只是有一些新的 work 出现,大家说这个是个值得尝试的方向,这个时候其实大家很多人就开始去试,然后我们试了之后觉得这是个挺 promising 的方向,我们也就加大了我们的投入。

当时我们觉得这是个正确的方向,这件事情一定非常有价值,而我们自身又是做这个方向的研究的人,我们希望能够把这个方向能够做的更好,能够把这种价值更好的呈现和交付出来。

Q:您会关注脑科学吗?

其实做脑科学研究的书还挺有意思的,就是说他在讲到底什么是智能?智能的原因是怎么形成的?然后我们到底对现在的这种智能的原理有多少理解?我觉得现在都是在一个非常浅薄的状态。有一本书叫《On Intelligence》,还是挺有意思。

我讲讲我对强人工智能的理解。就是说我们假设这个世界是有规律的话,那么这个规律理论上应该是可被模拟的,我们人假设没有灵魂存在的话,那么你就是一些细胞、一些化学物质的一个有规律的运行体。那么你在这样的一个情况下,你的人的所有的活动其实是可以被模拟。如果这个东西可以被模拟,如果人没有这种更高的灵魂的存在,那么你模拟出来的东西其实就是一个“强人工智能”。

Q:有的人认为可能不需要去研究人的智能怎么做,只需要让计算机能够实现一些原来实现不了的事情就可以了?

当然,机器学习,我们现在所有的人工智能公司做的都是这一件事情,大家用深度学习,用各种各样的机器学习的方法,然后去解决问题,去解决路径规划导航的问题,去解决自动驾驶的问题,去解决医疗上的智能判断的问题,大家都是在做这样一些事情。

Q:机器学习是属于一种特定的方法论了?

对,机器学习,相当于有个老师在教你,然后你用一种数学模型去规划、去定义这个问题。你说它智能吗?它不智能。

机器学习这个领域,我觉得现在发展非常快。现在大家看到像我们这样公司能够在这几年里面相对快速地成长,也是因为有一些历史性的技术的机遇,因为深度学习的快速发展。

深度学习,在计算机视觉的领域,能够把以前只能做到 70% 的水平,现在能够提升到 95%,原来不能用现在变得可用,原来可能我们在城市大脑的场景下,你报警说这是个逃犯,可能报十次里面九次都是错的,永远都是狼来了;现在报十次,可能九次都是对的,带来的价值是完全不一样的。

Q:这一切都是从 ImageNet 之后开始发生吗?

我觉得 ImageNet 之前就有。

Q:为什么之前的东西都没有走进我们的视野?

因为你不是专业的:)

现在其实更多人觉得人工智能真的火起来是因为 AlphaGo 对吧?AlphaGo 之后大家觉得说,真的人工智能很强,现在的算法变得如此的强大,以前好像根本不能做到东西现在都可以做了,但实际上机器学习、深度学习的相关的一些发展,神经网络的一些发展,其实一直都在进行的。

神经网络其实研究了几十年了,60 年代就有人开始研究。神经网络以前为什么效果没有那么好、被束之高阁的原因是因为,第一数据不够多,第二计算能力不够强。现在有了 GPU 的计算,有了这种高性能计算的模式,有了更多的数据,然后使得它的性能比以前能够有一个很大幅度的提升,这个方法被重新挖掘了出来。现在的深度学习的很多基础理论都跟以前的神经网络是沿袭的。

Q:作为一个人工智能领域的创业者,您希望给社会带来什么价值?希望社会给你什么帮助?

欢迎大家多多采购我们的产品和服务!你这个问题很容易回答的很 low:)你要这样想,创业者通常是一帮为了解决眼前的现实问题而站出来的人,哪里会想那么高大上的问题?但是我们可以随便聊下。

我们希望人工智能不要这么热。我觉得现在人工智能从资本到媒体都过热,大家都在讲人工智能,所有带电的公司都说自己是一家人工智能公司。这没有意义!

我自己其实想说,我们不是一家人工智能公司,我们是一家以人工智能技术为核心的产品和服务公司。最终你还是要回到说,你最后交付的产品、最后交付的服务是什么?你给谁去提供什么价值?这是一个真实的想法。我觉得在这样的一个时代里边,大家能不能沉得住心,能不能真的 focus 在技术、在产品上,能够有技术信仰,但同时又脚踏实地,我觉得这是非常关键的一件事情。

Part II:从 2050 谈开去

本集二叉树视频的诞生,与 2050 大会有千丝万缕的联系。身为一家众人瞩目的创业公司的 CTO,唐文斌的日常处于忙成狗的状态,做一个视频采访对他来说已经是一件奢侈的事情。然而一听说这次采访是为了 2050 大会,他二话没说就接受了。

下面是一段唐文斌与 2050 大会的小故事,与诸君共赏:)

话说在 2017 年冬天的一个夜晚,唐文斌原本计划要去滑雪,结果临时被王坚博士(阿里巴巴技术委员会主席,本季二叉树第一集嘉宾)约在机场见面。不巧航班晚点,他从下午 6 点一直等到晚上 10 点,与王坚博士聊完之后已经是午夜。再后来,双方在另一个时间另一个地点再次见面。

Q:还记得当时的情况吗?怎么被博士忽悠进 2050 大会的?

那天晚上我记得应该是在中关村的皇冠假日酒店,我们在那边等了他好久。然后他说他觉得现在大部分会都不是给年青人开的,所以他感觉应该要有一个面向年青人的活动,能够让优秀的人能够聚在一起。然后他就说,文斌你以前搞竞赛的,你应该认识很多优秀的小伙伴们,你去把他们拉过来。然后我就跳坑了。

我觉得能够有这样的一个平台、一个场地,能够让更多的人的声音能够被交换,能够被发出来,让更多人听到,我觉得是一个很有意思的事情,活动上还是集聚了一批非常有意思的人。

Q:所以相当于一开始的版本就是搞一个 ACM 竞赛?

也不是。一开始就是说大家过来一起来聚聚,玩一玩。我也没听说要卖门票啊!

Q:介绍一下你现在在筹备的东西?

我有一个团聚,主要是邀请以前 ACM 竞赛的同学们重温一下当年竞赛的场景。然后我们还会联合为云栖小镇做一个超高精度的建模,AEE 无人机航拍成组照片回传,Alitzure 负责 3D 重建,我们通过图像识别标注示意,最终在 8K 电视上呈现。

Q:您多次提到“有意思”这个词。这是您决定做不做一件事情的主要动机吗?

是啊,开心很重要,对吧?比如说我蛮喜欢滑雪的,然后你觉得滑雪的乐趣在于哪里?乐趣就在于你从山上下来的时候那种驾驭感,对吧?然后你说这给你带来了啥?其实我们又不是专业的运动员,我们虽然说在追求进步、在追求提升,但你都是在追求这种叫做进步和提升过程中的这种“有意思”和“快乐”,对吧?

其实我们所有人的兴趣爱好其实都是这样。我们参与这个活动,有像 Kevin 这种朋友们也在这里边,大家觉得这事挺有意思挺好玩,我们也愿意付出一些我们自己的时间,一起来做一些事情。

Q:您自己觉得“2050 年”会是什么样的?

2050 年到现在还有 32 年,我肯定能活到那时候,对吧?

我觉得 2050 年会有非常多的变数,因为我们现在的科技的发展其实是很指数级发展的,我们看过去的一两百年的发展要比以前 5000 年的发展可能都要快,然后我们最近的 10 年 20 年的发展可能要比前面的几十年的发展还要快,所以它都是在一个更指数级的方式在提升。

Q:您觉得这样的指数级发展会继续持续下去吗?

我不知道。我们是脚踏实地的干活者。

但是,回到 2050 这件事情:为什么说这个世界是年青人的?因为当技术非常快速发展的时候,你的学习能力变得非常的重要,很多时候你的经验反而变得没有那么的重要,而是说我要能够更快速的去看到、去发现、去尝试、去试错、去迭代,然后我跟上了这些新技术的发展,我变成了新技术的引领者。我们团队最早的一批人,其实都是以前搞竞赛的,然后我们这批人其实坦白讲,做计算机视觉经验其实都不太行,但是我们学的很快。

所以这个时候其实要的就是一批年青人,他们拥有非常快的学习能力,非常强的动手能力,然后在这样的一个过程中去定义了一些新的事物。

Q:你觉得在 2050 这个事情上,你现在最需要什么协助?

我觉得让更多的人看到 2050,然后也欢迎更多朋友能够加入进来,我觉得这是我们需要的协助!

2018-07-16 18:071217

评论 1 条评论

发布
暂无评论
发现更多内容

来看一个 ChatGPT 有关程序员的笑话

HoneyMoose

SpringBoot实现电子文件签字+合同系统

程序员大彬

springboot

软件测试与开发

测吧(北京)科技有限公司

软件测试

CleanMyMac4.12.4最新中文版本下载

茶色酒

CleanMyMac X

内存数据库如何发挥内存优势?

陈橘又青

数据库

OKR之剑·实战篇05:OKR致胜法宝-氛围&业绩双轮驱动(上)

vivo互联网技术

团队管理 OKR

平台工程101:Dev、Sec和Ops的自动化黏合剂

SEAL安全

DevOps 自动化 DevSecOps 平台工程 企业号 2 月 PK 榜

文件打开标识O_CLOEXEC简介

SkyFire

Linux 文件描述符

IntelliJ IDEA 的 Code Coverage 测试

HoneyMoose

现实中的量子计算机有望进化成《流量地球2》中的MOSS吗?

博文视点Broadview

阿里云PAI-Diffusion功能再升级,全链路支持模型调优,平均推理速度提升75%以上

阿里云大数据AI技术

人工智能 模型优化 企业号 2 月 PK 榜

DAPP智能合约矩阵系统开发

l8l259l3365

2023最新H5前端阅读书单推荐

kcodez

前端 H5 React

Java高手速成 | JSP的MVC模式

TiAmo

mvc jsp

在 Asp.Net Core 中什么是认证和授权

newbe36524

C# Kubernetes

低代码实现探索(五十五)后台服务设计

零道云-混合式低代码平台

单体应用、SOA架构、微服务架构有哪些优劣势?

擦机鼻涕

微服务架构 组件化 SOA

使用 ChatGPT 轻松创建用户注册页面

devpoint

人工智能 AI ChatGPT

架构训练营第10期模块6作业

Geek_4db2d5

Java CompletableFuture 异步超时实现探索

京东科技开发者

Java jdk RPC 多线程并发 企业号 2 月 PK 榜

初学者必看!3D建模要学什么软件?

Finovy Cloud

3DMAX maya 3D软件

软件测试 | 什么是被测系统架构与数据流分析

测吧(北京)科技有限公司

软件测试

软件测试 | 被测系统的需求理解

测吧(北京)科技有限公司

软件测试

富士康CDO史喆:数字化和智能化为何要打造开放系统,引入外部合作?

B Impact

Guitar Pro8和谐版安装包下载教程

茶色酒

Guitar Pro8

数据可视化大屏项目,我是如何实现多屏间的数据通信

梁木由

程序员 前端 前端开发

m序列码产生电路设计与仿真

timerring

FPGA

微博系统中”微博评论“的高性能高可用计算架构

Geek_e5f2e5

FL水果软件2023最新中文版本在哪里下载?

茶色酒

FL Studio21

【技术干货】开关电源噪声的种类来源和抑制方法解析

元器件秋姐

噪声 变压器 开关 电源

Alibaba全新出品百亿级高并发系统(全彩版小册开源)

架构师之道

Java 面试 高并发

唐文斌:从清华姚班到Face++创业,我是怎么开始做机器学习的?_语言 & 开发_唐文斌_InfoQ精选文章