本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。
本期 Robin.ly 创业专访邀请到语音识别和转录初创公司 Otter.ai 的 CEO 和创始人 Sam Liang(梁松)和大家分享他的创业经历和对自然语言处理的见解。
Sam Liang 于 2003 年取得斯坦福大学的电子工程博士学位,并曾经是谷歌地图定位服务的核心团队成员。他的第一家创业公司移动定位平台 Alohar 在 2013 年被阿里巴巴收购。
早年经历
Wenli: 您在斯坦福获得了电子工程的博士学位。入学的那一年,您的校友 Marc Randolph 创办了 Netflix。您有没有想过有一天也会像他一样成为一名企业家?
Sam Liang:我在斯坦福主要是从事软件方面的研究。我的导师是计算机科学领域的知名教授,叫 David Cheriton。他为 Larry Page 和 Sergey Brin 写了第一张十万美元的支票,帮助他们在 1997 年创办了谷歌。后来这十万美元变成了几十亿美元,造就了历史上最成功的天使投资之一。
刚去斯坦福的时候我并没有创业的念头,但接下来的几年在创业环境中受到熏陶,也开始有了创业的想法。于是毕业后我加入了一家创业公司,想要了解和学习创业公司是如何运作的,想着有一天能创办自己的公司。
Sam Liang 与导师 David Cheriton (图片来源:Sam Liang)
Wenli Zhou: 您曾经在 Google 担任过平台架构师。您觉得在 Google 的那几年最大成就是什么?
Sam Liang:我在 2006 年加入 Google,负责打造一个城域 WiFi 系统。那时候还没有 3G,使用移动设备连网十分困难。Google 决定在市内的路灯上安装路由器来提供 WiFi 服务,这也是我加入 Google 后参与的第一个项目。后来 Google 又推出了定位服务,我编写了这个项目的第一行代码,还设计了整体的架构。
2007 年,Steve Jobs 推出的第一款 iPhone 其实并没有任何 GPS 功能,于是我们最先为 iPhone 建立了定位服务,并得到了 Jobs 本人的肯定。当这款服务在旧金山推出时,乔布斯亲自在 iPhone 上进行了演示,而我在后台全程负责确保演示的顺利进行。这是一段很难忘的经历,对我后续的创业也很有帮助。
Sam Liang 在 Google Maps 时期 (图片来源:Sam Liang)
Otter.ai 的特点和优势
Wenli Zho:能介绍一下 Otter.ai 吗?它跟其他语音识别产品有什么差别?
Sam Liang:我们打造出 Otter.ai 只花了三年时间,这是一个基于人工智能和深度学习的语音识别产品。一开始很多人会好奇,已经有了 Siri 和 Alexa,我们为什么还要打造一个类似的产品。实际上,我们的产品有自己的特点,针对的是一个完全不同的市场,满足的是不同的需求。因为我们知道,用同样的产品跟那些大公司直接竞争几乎没有什么胜算。
多数人每天与 Siri 或者 Alexa 对话的次数和时间都很短,而市场上也没有记录和分析这些对话的工具。然而,谈话是人们日常沟通最常见的方式。如果有一种方式可以记录人们生活中的所有对话,是不是很有意思呢?比如如果我与风险投资人,潜在客户以及求职者的对话能够被记录下来,对我来说是很有帮助的。但最重要的是,人工智能可以分析对话的内容,并提供一些建议。这就是我们打造 Otter 的目的。
Otter 是一款可以在 iPhone 上使用的免费产品,也可以在浏览器上使用。不到一年前,我们推出了 Otter 的语音识别服务,随后这个产品很快流行起来,几个月前还被 Google 评选为 2018 年最佳应用程序。最近的一次 TechCrunch Disrupt San Francisco 大会也使用 Otter 作为整个会议的官方语音应用程序,实时转录所有演讲和谈话的文本,并在会场及通过直播进行展示。这是该会议的语音技术十几年来第一次得到更新。
Sam Liang 在 TechCrunch 大会 (图片来源:Sam Liang)
Otter 的 AI 技术包括语言识别和声音识别两部分。语言识别能够将歌曲和谈话转换为文本;声音识别,或说话人识别,能够识别是谁在说话。其中还包括了一个叫做人声分离(diarization)的技术。人声分离是一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音。
Wenli Zhou:目前语音识别的准确度是多少?您觉得这个技术将来还会有哪些应用?
Sam Liang:对于母语人士来说,准确率可能会达到 95%,如果背景噪音比较大就会低一些。
能够识别不同人的声音实际上可以帮助我们更好的理解对话。因为即使是相同的句子,不同的人想表达的意思很可能也不一样。通过查看历史记录就有可能理解同一个人的说话习惯,并分析出以后各种表达的真实含义。会议笔记之类的活动记录将来也可以由 Otter 或其他类似的 AI 系统完成。我们的所有语音记录都会加密保存,也可以有选择的进行分享。我们还可以通过关键词搜索历史记录,比如说话人的姓名和“自动驾驶汽车”这样的话题。
Otter 的主要合作伙伴
Wenli Zhou: 我知道 Otter 目前是 Zoom 的唯一合作伙伴,帮助他们转录所有的视频会议文本。你们现在还在跟其他企业合作吗?
Sam Liang:首先,Zoom 是一个很好的合作伙伴,他们专门授权我们的系统提供自动转录服务。Zoom 是目前世界上最热门的视频会议系统,实际上也是第一个提供自动语音识别,自动转录的会议系统——没错,不是 Google,不是微软,也不是 WebEx。所以这给我们的产品和服务质量加分不少。
Sam Liang 与 Zoom 创始人 Eric Yuan (图片来源:Sam Liang)
除了 Zoom,我们还有很多其他合作伙伴。其中一个可以公开介绍的是由 Ray Dalio 创建的桥水基金。它是世界上最大的孵化基金,管理着 1600 亿美元。Ray Dalio 非常提倡公司运作要保持较高的透明度。桥水基金记录了过去近 20 年的所有会议内容,在观看了我们的产品演示之后就决定使用 Otter 进行会议记录和分析。
我们还有一部分合作伙伴是大学。很多学生和老师用 Otter 记录讲义或教师会议。比如加州大学洛杉矶分校正在考虑开展一种针对国际学生的服务,帮助他们记录课堂笔记。实际上我早年来美国的时候也经常听不懂教授讲课,只能使用录音笔把整堂课录下来,课后还要反复听才能理解授课内容。有了 Otter 这样的工具,可以为留学生带来很多方便。
Otter 的发展前景
Wenli Zhou: Otter 在 2016 年从几家风险投资公司筹集了 A 轮融资。您会经常跟投资者沟通吗?他们会影响公司决策吗?
Sam Liang:我们经常跟投资者交流,比如 Tim Draper 和 Horizons Ventures。他们是打造了 AlphaGo 的 DeepMind 公司的早期投资者,也投资了 Waze 和 Spotify 这样的炙手可热的公司。
Sam Liang(右)与 Robin.ly 主持人 Wenli(左)
我们会跟投资者开诚布公的讨论,让他们充分了解我们的想法。他们通常相信我们会做出最好的决定,也会在适当的时候提供建议。他们对我们的技术,我们的团队和整个市场都充满信心。这些投资人往往经验丰富,能够对未来 5-10 年的市场状况做出合理的预测。这样的判断可以帮助我们提早行动,甚至赶在 Google,Amazon 和苹果等大公司意识到之前就抢占新市场。新的创业公司往往就是这么诞生的。当然,可能其中 99%最终都会失败,但幸存的那 1%就会变得非常成功。
查看原文链接:https://www.robinly.info/blog/sam-liang-otter-ai
评论