写点什么

Otter.ai 创始人 Sam Liang:智能记录你的生活对话

  • 2019-04-28
  • 本文字数:2836 字

    阅读完需:约 9 分钟

Otter.ai创始人Sam Liang:智能记录你的生活对话

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期 Robin.ly 创业专访邀请到语音识别和转录初创公司 Otter.ai 的 CEO 和创始人 Sam Liang(梁松)和大家分享他的创业经历和对自然语言处理的见解。


Sam Liang 于 2003 年取得斯坦福大学的电子工程博士学位,并曾经是谷歌地图定位服务的核心团队成员。他的第一家创业公司移动定位平台 Alohar 在 2013 年被阿里巴巴收购。

早年经历

Wenli: 您在斯坦福获得了电子工程的博士学位。入学的那一年,您的校友 Marc Randolph 创办了 Netflix。您有没有想过有一天也会像他一样成为一名企业家?


Sam Liang:我在斯坦福主要是从事软件方面的研究。我的导师是计算机科学领域的知名教授,叫 David Cheriton。他为 Larry Page 和 Sergey Brin 写了第一张十万美元的支票,帮助他们在 1997 年创办了谷歌。后来这十万美元变成了几十亿美元,造就了历史上最成功的天使投资之一。


刚去斯坦福的时候我并没有创业的念头,但接下来的几年在创业环境中受到熏陶,也开始有了创业的想法。于是毕业后我加入了一家创业公司,想要了解和学习创业公司是如何运作的,想着有一天能创办自己的公司。



Sam Liang 与导师 David Cheriton (图片来源:Sam Liang)


Wenli Zhou: 您曾经在 Google 担任过平台架构师。您觉得在 Google 的那几年最大成就是什么?


Sam Liang:我在 2006 年加入 Google,负责打造一个城域 WiFi 系统。那时候还没有 3G,使用移动设备连网十分困难。Google 决定在市内的路灯上安装路由器来提供 WiFi 服务,这也是我加入 Google 后参与的第一个项目。后来 Google 又推出了定位服务,我编写了这个项目的第一行代码,还设计了整体的架构。


2007 年,Steve Jobs 推出的第一款 iPhone 其实并没有任何 GPS 功能,于是我们最先为 iPhone 建立了定位服务,并得到了 Jobs 本人的肯定。当这款服务在旧金山推出时,乔布斯亲自在 iPhone 上进行了演示,而我在后台全程负责确保演示的顺利进行。这是一段很难忘的经历,对我后续的创业也很有帮助。



Sam Liang 在 Google Maps 时期 (图片来源:Sam Liang)

Otter.ai 的特点和优势

Wenli Zho:能介绍一下 Otter.ai 吗?它跟其他语音识别产品有什么差别?


Sam Liang:我们打造出 Otter.ai 只花了三年时间,这是一个基于人工智能和深度学习的语音识别产品。一开始很多人会好奇,已经有了 Siri 和 Alexa,我们为什么还要打造一个类似的产品。实际上,我们的产品有自己的特点,针对的是一个完全不同的市场,满足的是不同的需求。因为我们知道,用同样的产品跟那些大公司直接竞争几乎没有什么胜算。


多数人每天与 Siri 或者 Alexa 对话的次数和时间都很短,而市场上也没有记录和分析这些对话的工具。然而,谈话是人们日常沟通最常见的方式。如果有一种方式可以记录人们生活中的所有对话,是不是很有意思呢?比如如果我与风险投资人,潜在客户以及求职者的对话能够被记录下来,对我来说是很有帮助的。但最重要的是,人工智能可以分析对话的内容,并提供一些建议。这就是我们打造 Otter 的目的。


Otter 是一款可以在 iPhone 上使用的免费产品,也可以在浏览器上使用。不到一年前,我们推出了 Otter 的语音识别服务,随后这个产品很快流行起来,几个月前还被 Google 评选为 2018 年最佳应用程序。最近的一次 TechCrunch Disrupt San Francisco 大会也使用 Otter 作为整个会议的官方语音应用程序,实时转录所有演讲和谈话的文本,并在会场及通过直播进行展示。这是该会议的语音技术十几年来第一次得到更新。



Sam Liang 在 TechCrunch 大会 (图片来源:Sam Liang)


Otter 的 AI 技术包括语言识别和声音识别两部分。语言识别能够将歌曲和谈话转换为文本;声音识别,或说话人识别,能够识别是谁在说话。其中还包括了一个叫做人声分离(diarization)的技术。人声分离是一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音。


Wenli Zhou:目前语音识别的准确度是多少?您觉得这个技术将来还会有哪些应用?


Sam Liang:对于母语人士来说,准确率可能会达到 95%,如果背景噪音比较大就会低一些。


能够识别不同人的声音实际上可以帮助我们更好的理解对话。因为即使是相同的句子,不同的人想表达的意思很可能也不一样。通过查看历史记录就有可能理解同一个人的说话习惯,并分析出以后各种表达的真实含义。会议笔记之类的活动记录将来也可以由 Otter 或其他类似的 AI 系统完成。我们的所有语音记录都会加密保存,也可以有选择的进行分享。我们还可以通过关键词搜索历史记录,比如说话人的姓名和“自动驾驶汽车”这样的话题。

Otter 的主要合作伙伴

Wenli Zhou: 我知道 Otter 目前是 Zoom 的唯一合作伙伴,帮助他们转录所有的视频会议文本。你们现在还在跟其他企业合作吗?


Sam Liang:首先,Zoom 是一个很好的合作伙伴,他们专门授权我们的系统提供自动转录服务。Zoom 是目前世界上最热门的视频会议系统,实际上也是第一个提供自动语音识别,自动转录的会议系统——没错,不是 Google,不是微软,也不是 WebEx。所以这给我们的产品和服务质量加分不少。



Sam Liang 与 Zoom 创始人 Eric Yuan (图片来源:Sam Liang)


除了 Zoom,我们还有很多其他合作伙伴。其中一个可以公开介绍的是由 Ray Dalio 创建的桥水基金。它是世界上最大的孵化基金,管理着 1600 亿美元。Ray Dalio 非常提倡公司运作要保持较高的透明度。桥水基金记录了过去近 20 年的所有会议内容,在观看了我们的产品演示之后就决定使用 Otter 进行会议记录和分析。


我们还有一部分合作伙伴是大学。很多学生和老师用 Otter 记录讲义或教师会议。比如加州大学洛杉矶分校正在考虑开展一种针对国际学生的服务,帮助他们记录课堂笔记。实际上我早年来美国的时候也经常听不懂教授讲课,只能使用录音笔把整堂课录下来,课后还要反复听才能理解授课内容。有了 Otter 这样的工具,可以为留学生带来很多方便。

Otter 的发展前景

Wenli Zhou: Otter 在 2016 年从几家风险投资公司筹集了 A 轮融资。您会经常跟投资者沟通吗?他们会影响公司决策吗?


Sam Liang:我们经常跟投资者交流,比如 Tim Draper 和 Horizons Ventures。他们是打造了 AlphaGo 的 DeepMind 公司的早期投资者,也投资了 Waze 和 Spotify 这样的炙手可热的公司。



Sam Liang(右)与 Robin.ly 主持人 Wenli(左)


我们会跟投资者开诚布公的讨论,让他们充分了解我们的想法。他们通常相信我们会做出最好的决定,也会在适当的时候提供建议。他们对我们的技术,我们的团队和整个市场都充满信心。这些投资人往往经验丰富,能够对未来 5-10 年的市场状况做出合理的预测。这样的判断可以帮助我们提早行动,甚至赶在 Google,Amazon 和苹果等大公司意识到之前就抢占新市场。新的创业公司往往就是这么诞生的。当然,可能其中 99%最终都会失败,但幸存的那 1%就会变得非常成功。


查看原文链接https://www.robinly.info/blog/sam-liang-otter-ai


2019-04-28 08:0014647
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 19.7 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

微信业务架构图与学生管理系统架构图

冷夫冲

架构实战营 #架构实战营 架构师实战营 「架构实战营」

详解CAN总线:CAN节点硬件构成方案

不脱发的程序猿

嵌入式 汽车电子 CAN总线 CAN节点硬件构成方案 CAN节点

邓荣伟:稳定支撑每秒百万笔支付请求,支付宝数据库架构的过去、现在与未来

OceanBase 数据库

OceanBase存储层代码解读(四):宏块的垃圾回收和坏块检查

OceanBase 数据库

互联网架构师联合总结的Java面试攻略,GitHub标星30K!

程序知音

java面试 大厂面试 java架构师 后端技术 Java面试八股文

Canvas+Javascript实现点击小球的爆炸效果

Sam9029

JavaScript canvas 9月月更 小球爆炸

[架构实战] 课后作业

爱学习的麦子

详解CAN总线:CAN总线报文格式—数据帧

不脱发的程序猿

汽车电子 CAN总线 CAN协议 CAN总线报文格式 CAN数据帧

直冲云霄,阿里大牛耗时49天整理12W字面试手册,押题准确率直冲95%

Geek_0c76c3

Java 数据库 开源 程序员 架构

【编程实践】提高工作效率,避免重复且枯燥的操作,利用Python自动发送邮件

迷彩

SMTP 邮件协议 9月月更 Python邮件发送

吃透阿里大佬分享的这份Java面试神技,3个月斩获8家offer

Geek_0c76c3

Java 数据库 开源 架构 开发

评判优秀程序员标准:“高并发”,竟被一份Github万星笔记讲清楚了

Geek_0c76c3

Java 数据库 架构 开发 面经

Shell编程学习(一)

Studying_swz

Shell 初阶 9月月更

MyBatisPlus学习

Geek_6689b6

入门 MyBatisPlus 9月月更

详解CAN总线:标准数据帧和扩展数据帧

不脱发的程序猿

汽车电子 通信协议 CAN总线 CAN协议 标准数据帧和扩展数据帧

竟拿到阿里45K高薪offer!只因他刷了这份阿里微服务天花板手册

Geek_0c76c3

Java 数据库 开源 架构 面经

大厂“毕业”半月,面试数十家公司,凭借这份面试总结涨获7家Offer,成功入职

程序员小毕

spring 程序员 程序人生 JVM Java 面试

阿里内网流传的9w字图解网络(全彩版)GitHub现已下载量过百万

程序知音

Java 程序员 计算机网络 后端技术 计算机底层

全网首次公开:Java面试参考指南V3.0版(完美契合当下所有互联网公司面试需求)

Java全栈架构师

数据库 程序人生 后端 高并发 Java 面试

Shell编程学习(二)

Studying_swz

Shell 脚本 9月月更

详解CAN总线:CAN协议分层结构及功能

不脱发的程序猿

CAN总线 CAN协议 CAN协议分层结构及功能

信息论与编码(一)| 信源分类与数学模型

timerring

9月日更 信息熵

【云原生 | 从零开始学Kubernetes】八、命名空间资源配额以及标签

泡泡

Docker 云计算 云原生 k8s 9月月更

阿里最新秋招面经,腾讯/美团/字节1万道Java中高级面试题

程序知音

Java 大厂面试 后端技术 Java面试八股文 阿里面试

Python语法之字典

芯动大师

字典 9月月更 Python语法

架构师的十八般武艺:可观测性

agnostic

可观测性

Github爆火!阿里最新发布的《高并发核心编程笔记》PDF文档

Geek_0c76c3

Java 数据库 开源 架构 开发

架构实战营模块1作业

陌生流云

架构实战营

阿里五位MySQL封神大佬耗17个月总结出53章性能优化法则

Geek_0c76c3

Java 数据库 开源 程序员 开发

遭不住了!Alibaba开源内网“M9”级别高并发编程全彩版进阶手册

程序知音

Java 架构 并发编程 多线程与高并发 后端技术

全网首次公开!阿里巴巴1685页Java面试突击核心讲(基础到高级足足涵盖19个Java核心技术)

Java永远的神

数据库 spring 程序员 程序人生 java面试

Otter.ai创始人Sam Liang:智能记录你的生活对话_AI&大模型_Robin.ly_InfoQ精选文章