写点什么

Otter.ai 创始人 Sam Liang:智能记录你的生活对话

  • 2019-04-28
  • 本文字数:2836 字

    阅读完需:约 9 分钟

Otter.ai创始人Sam Liang:智能记录你的生活对话

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期 Robin.ly 创业专访邀请到语音识别和转录初创公司 Otter.ai 的 CEO 和创始人 Sam Liang(梁松)和大家分享他的创业经历和对自然语言处理的见解。


Sam Liang 于 2003 年取得斯坦福大学的电子工程博士学位,并曾经是谷歌地图定位服务的核心团队成员。他的第一家创业公司移动定位平台 Alohar 在 2013 年被阿里巴巴收购。

早年经历

Wenli: 您在斯坦福获得了电子工程的博士学位。入学的那一年,您的校友 Marc Randolph 创办了 Netflix。您有没有想过有一天也会像他一样成为一名企业家?


Sam Liang:我在斯坦福主要是从事软件方面的研究。我的导师是计算机科学领域的知名教授,叫 David Cheriton。他为 Larry Page 和 Sergey Brin 写了第一张十万美元的支票,帮助他们在 1997 年创办了谷歌。后来这十万美元变成了几十亿美元,造就了历史上最成功的天使投资之一。


刚去斯坦福的时候我并没有创业的念头,但接下来的几年在创业环境中受到熏陶,也开始有了创业的想法。于是毕业后我加入了一家创业公司,想要了解和学习创业公司是如何运作的,想着有一天能创办自己的公司。



Sam Liang 与导师 David Cheriton (图片来源:Sam Liang)


Wenli Zhou: 您曾经在 Google 担任过平台架构师。您觉得在 Google 的那几年最大成就是什么?


Sam Liang:我在 2006 年加入 Google,负责打造一个城域 WiFi 系统。那时候还没有 3G,使用移动设备连网十分困难。Google 决定在市内的路灯上安装路由器来提供 WiFi 服务,这也是我加入 Google 后参与的第一个项目。后来 Google 又推出了定位服务,我编写了这个项目的第一行代码,还设计了整体的架构。


2007 年,Steve Jobs 推出的第一款 iPhone 其实并没有任何 GPS 功能,于是我们最先为 iPhone 建立了定位服务,并得到了 Jobs 本人的肯定。当这款服务在旧金山推出时,乔布斯亲自在 iPhone 上进行了演示,而我在后台全程负责确保演示的顺利进行。这是一段很难忘的经历,对我后续的创业也很有帮助。



Sam Liang 在 Google Maps 时期 (图片来源:Sam Liang)

Otter.ai 的特点和优势

Wenli Zho:能介绍一下 Otter.ai 吗?它跟其他语音识别产品有什么差别?


Sam Liang:我们打造出 Otter.ai 只花了三年时间,这是一个基于人工智能和深度学习的语音识别产品。一开始很多人会好奇,已经有了 Siri 和 Alexa,我们为什么还要打造一个类似的产品。实际上,我们的产品有自己的特点,针对的是一个完全不同的市场,满足的是不同的需求。因为我们知道,用同样的产品跟那些大公司直接竞争几乎没有什么胜算。


多数人每天与 Siri 或者 Alexa 对话的次数和时间都很短,而市场上也没有记录和分析这些对话的工具。然而,谈话是人们日常沟通最常见的方式。如果有一种方式可以记录人们生活中的所有对话,是不是很有意思呢?比如如果我与风险投资人,潜在客户以及求职者的对话能够被记录下来,对我来说是很有帮助的。但最重要的是,人工智能可以分析对话的内容,并提供一些建议。这就是我们打造 Otter 的目的。


Otter 是一款可以在 iPhone 上使用的免费产品,也可以在浏览器上使用。不到一年前,我们推出了 Otter 的语音识别服务,随后这个产品很快流行起来,几个月前还被 Google 评选为 2018 年最佳应用程序。最近的一次 TechCrunch Disrupt San Francisco 大会也使用 Otter 作为整个会议的官方语音应用程序,实时转录所有演讲和谈话的文本,并在会场及通过直播进行展示。这是该会议的语音技术十几年来第一次得到更新。



Sam Liang 在 TechCrunch 大会 (图片来源:Sam Liang)


Otter 的 AI 技术包括语言识别和声音识别两部分。语言识别能够将歌曲和谈话转换为文本;声音识别,或说话人识别,能够识别是谁在说话。其中还包括了一个叫做人声分离(diarization)的技术。人声分离是一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音。


Wenli Zhou:目前语音识别的准确度是多少?您觉得这个技术将来还会有哪些应用?


Sam Liang:对于母语人士来说,准确率可能会达到 95%,如果背景噪音比较大就会低一些。


能够识别不同人的声音实际上可以帮助我们更好的理解对话。因为即使是相同的句子,不同的人想表达的意思很可能也不一样。通过查看历史记录就有可能理解同一个人的说话习惯,并分析出以后各种表达的真实含义。会议笔记之类的活动记录将来也可以由 Otter 或其他类似的 AI 系统完成。我们的所有语音记录都会加密保存,也可以有选择的进行分享。我们还可以通过关键词搜索历史记录,比如说话人的姓名和“自动驾驶汽车”这样的话题。

Otter 的主要合作伙伴

Wenli Zhou: 我知道 Otter 目前是 Zoom 的唯一合作伙伴,帮助他们转录所有的视频会议文本。你们现在还在跟其他企业合作吗?


Sam Liang:首先,Zoom 是一个很好的合作伙伴,他们专门授权我们的系统提供自动转录服务。Zoom 是目前世界上最热门的视频会议系统,实际上也是第一个提供自动语音识别,自动转录的会议系统——没错,不是 Google,不是微软,也不是 WebEx。所以这给我们的产品和服务质量加分不少。



Sam Liang 与 Zoom 创始人 Eric Yuan (图片来源:Sam Liang)


除了 Zoom,我们还有很多其他合作伙伴。其中一个可以公开介绍的是由 Ray Dalio 创建的桥水基金。它是世界上最大的孵化基金,管理着 1600 亿美元。Ray Dalio 非常提倡公司运作要保持较高的透明度。桥水基金记录了过去近 20 年的所有会议内容,在观看了我们的产品演示之后就决定使用 Otter 进行会议记录和分析。


我们还有一部分合作伙伴是大学。很多学生和老师用 Otter 记录讲义或教师会议。比如加州大学洛杉矶分校正在考虑开展一种针对国际学生的服务,帮助他们记录课堂笔记。实际上我早年来美国的时候也经常听不懂教授讲课,只能使用录音笔把整堂课录下来,课后还要反复听才能理解授课内容。有了 Otter 这样的工具,可以为留学生带来很多方便。

Otter 的发展前景

Wenli Zhou: Otter 在 2016 年从几家风险投资公司筹集了 A 轮融资。您会经常跟投资者沟通吗?他们会影响公司决策吗?


Sam Liang:我们经常跟投资者交流,比如 Tim Draper 和 Horizons Ventures。他们是打造了 AlphaGo 的 DeepMind 公司的早期投资者,也投资了 Waze 和 Spotify 这样的炙手可热的公司。



Sam Liang(右)与 Robin.ly 主持人 Wenli(左)


我们会跟投资者开诚布公的讨论,让他们充分了解我们的想法。他们通常相信我们会做出最好的决定,也会在适当的时候提供建议。他们对我们的技术,我们的团队和整个市场都充满信心。这些投资人往往经验丰富,能够对未来 5-10 年的市场状况做出合理的预测。这样的判断可以帮助我们提早行动,甚至赶在 Google,Amazon 和苹果等大公司意识到之前就抢占新市场。新的创业公司往往就是这么诞生的。当然,可能其中 99%最终都会失败,但幸存的那 1%就会变得非常成功。


查看原文链接https://www.robinly.info/blog/sam-liang-otter-ai


2019-04-28 08:0014312
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 19.2 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

50W+小程序开发者背后的数据库降本增效实践

石云升

数据库 severless 全球架构师峰会 ArchSummit 8月月更

选择合适的 DevOps 工具,从理解 DevOps 开始

SoFlu软件机器人

分析Flask WSGI经过Nginx代理出现两次302问题

西北望高楼

flask Python.

百图生科卓越开发者计划全面升级暨《计算免疫问题白皮书》发布

硬科技星球

为了带你搞懂RPC,我们手写了一个RPC框架

PPPHUANG

Java 架构 dubbo RPC RPC 协议实现原理

WPF如何自定义隐藏下拉框选项

吴脑的键客

WPF

Web前端培训班学前端技术靠谱吗

小谷哥

“查找附近的商铺”|Geohash+MySQL实现地理位置筛选

领创集团Advance Intelligence Group

MySQL sql geohash

java培训学习怎么样?

小谷哥

开源一夏 | 五分钟带你上手ShardingJDBC实现MySQL分库分表

知识浅谈

开源 8月月更

AntDB数据库亮相24届高速展,助力智慧高速创新应用

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

游戏元宇宙发展趋势展望分析

易观分析

游戏 分析 元宇宙

大数据技术培训班怎么选择?

小谷哥

打破文件锁限制,以存储力量助力企业增长新动力

焱融科技

存储 文件存储 分布式文件存储 文件锁

兆骑科创科创赛事平台,创业赛事活动路演,线上直播路演

兆骑科创凤阁

BPM是什么意思?BPM的优势及好处有哪些?

优秀

BPM

直播app开发,是优化直播体验不得不关注的两大指标

开源直播系统源码

软件开发 直播系统源码 语音直播系统源码 直播app

vue高频面试题(附答案)

helloworld1024fd

Vue

️前端研发的新基础设施 - Rust ️🦀️

阿里技术

​Rust

如何使用 Mashup 技术在 SAP Cloud for Customer 页面嵌入自定义 UI

汪子熙

html5 前端开发 SAP C4C 8月月更

武汉参加web前端培训哪家好

小谷哥

2.8K 120Hz触控双屏加持 灵耀X 双屏Pro 2022让办公无惧想象

科技热闻

80篇国产数据库实操文档汇总(含TiDB、达梦、openGauss等)

墨天轮

数据库 opengauss TiDB 国产数据库 南大通用

未来小间距竞争的着力点在哪里

Dylan

LED显示屏 led显示屏厂家

设计专业第一台笔记本 华硕灵耀Pro16 2022 新品首发超值入手

科技热闻

30分钟成为Contributor|如何多方位参与OpenHarmony开源贡献?

OpenHarmony开发者

Open Harmony

面对营销难,有米云指出一条破局之路

ToB行业头条

人像分割技术解析与应用

ZEGO即构

动态模型中嵌入静态模型实践

FunTester

大数据培训机构有哪些?

小谷哥

兆骑科创平台招才引智,海内外高层次人才引进平台

兆骑科创凤阁

Otter.ai创始人Sam Liang:智能记录你的生活对话_AI&大模型_Robin.ly_InfoQ精选文章