写点什么

使用 Actions on Google 和 API.AI 构建会话式应用

  • 2017-01-02
  • 本文字数:2030 字

    阅读完需:约 7 分钟

在 Amazon re:Invent 大会上,Amazon 发布了深度学习服务 Lex,该服务底层所使用的技术与 Alexa 应用到 Amazon 移动蓝牙和 Wi-Fi Echo 扬声器中的技术一样。在 Amazon 发布该服务之后不久,Google 就发布了 Actions on Google 项目,使开发者能够构建基于 Google Assistant 的语音交互应用,并与 Google Home 设备进行集成。

图片来源: https://madeby.google.com/home/

Google 的高级开发工程师 Wayne Piekarsk 将 Actions on Google 平台描述为一种集成方式:

开发者可以通过它将自己的服务与 Google Assistant 集成到一起。

该集成的实现方式是:

会话行为(Conversation Action)允许开发者通过一个双向窗口满足用户的请求。当用户请求一个 Action 的时候,Google Assistant 就会处理该请求,决定由哪个 Action 处理该请求最好,并调用相关的会话行为。调用之后,开发者开发的会话行为就能掌控剩下的所有事情,包括如何欢迎用户,如何满足用户的请求,以及如何结束会话。

为了阐述 Actions on Google 的功能,Google 使用了一个私人厨师的示例应用,该应用允许最终用户通过 Google Home 设备与食谱查找服务交互。首先,最终用户需要告诉该应用自己现在的情绪以及所拥有的佐料,然后会话应用会解析用户的情绪,理解可用的佐料有哪些,之后会根据用户的情绪和食欲为其提供食谱。

编写这种类型的应用是非常具有挑战性的,因为很难准确地提取 Action 的意义。Solvvy 的联合创始人和 CTO Mehdi Samadi 解释说:

现在即使利用 AI 技术,将“告诉我附近便宜的 Indian 餐馆在哪里”这样的命令 / 指令转换成一组可执行的命令集也不是一件容易的任务。我们首先需要理解用户想要寻找“Indian”风味的餐馆,然后需要知道用户心中的“便宜”到底指什么价位。

Google 开发会话行为的目的就是为了应对这些上下文敏感的挑战,以帮助开发者构建会话 App。

图片来源: (screenshot) https://www.youtube.com/watch?v=HNfE0uaKcfY

会话行为由三个主要的组件组成,包括:

  • 调用触发器(Invocation Triggers)定义了用户如何调用和发现 Action。一旦被触发,Action 就会展开一个由对话框定义的会话与用户交互。
  • 对话框(Dialogs )定义了用户如何与 Action 进行交谈,同时它也是 Action 的用户界面。它们依靠实现代码推动会话的前行。
  • 实现(Fulfillment)是处理用户输入并返回响应的代码,它是一个 REST 服务。实现通常还包含一些执行具体行为的逻辑,例如检索菜谱或者新闻并大声朗读。

调用会话行为的方式有三种:

  • 会话 API,它提供了与 Google Assistant 通信所必须使用的请求和响应的格式。
  • Actions SDK,包含一个 NodeJS 客户端类库,行为包(Action Package)定义,CLI 和 Web 模拟器。
  • 包含 API.AI 在内的其他工具。

API.AI 是 Google 最近收购的一家公司,开发者可以通过它来构建会话接口。Google 负责工程的副总裁 Scott Huffman 在 2016 年 9 月曾宣称:

超过 60,000 名开发者正在使用 API.AI 在 Slack、Facebook Messenger 和 Kik 等环境中构建会话式体验。

在 Actions on Google 平台上,开发者可以将 API.AI 接入自己的会话界面上以减少会话 API 通常所需要的文字转录量。Piekarsk 着重强调了在 Actions on Google 平台上使用 API.AI 的一些好处:

API.AI 为会话接口的创建提供了一个直观的图形用户界面,同时它还会处理会话状态的管理和表单的填充等繁重的任务。

图片来源:(screenshot) https://www.youtube.com/watch?v=HNfE0uaKcfY

为了处理一个会话,开发者可以使用控制台来定义 Intents。在 Google 私人厨师食谱的示例中,Intents 包括定义需要从用户那里获取的信息,例如材料、温度、菜式和烹饪时间。

接下来,开发者需要提供一些例句。API.AI 会使用这些例句训练机器学习算法,以便于处理其他来自于用户的句子。开发者不需要为 API.AI 编写正则表达式来解析其他的句子。

图片来源: https://www.youtube.com/watch?v=HNfE0uaKcfY

开发者可以人工地为每个信息指定可接受的值。一旦提供了这些内容,API.AI 就能使用这些信息从用户所说的句子中提取语义。例如,开发者可以定义一组映射到某种蛋白质的实体。如果私人厨师 App 想要在食谱中包含蛋白质,那么可以从开发者定义的一组同义词(例如牛肉、羊肉、豆腐和鸡肉等)中选取。

当用户与应用通信的时候,用户可以提供自然信息,包括一些无序的、只言片语的信息,如果应用没有接收到完整的信息,或者接受到的信息不明确,那么它会通过一些跟进的问题来获取信息。

开发者还可以将 Intents 连接到后端的 webhook,这样就可以通过连接到 IFTTT、Zapier 或者 Azure Logic Apps 等第三方平台上实现扩展。当一个 webhook 被调用的时候,所有适合的数据都会以 JSON 字符串的方式传送。

开发者在控制台上配置好了自己的 Intents 和实体之后,他们就可以在 API.AI 的 Web 模拟器上启动一个测试,在将其提供给所有的 Google Home 用户之前首先通过私人的 Google Home 进行预览。

查看英文原文 Building Conversational Apps Using Actions on Google and API.AI

2017-01-02 18:003873
用户头像

发布了 321 篇内容, 共 119.5 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

K8s网络基本原理

陈一之

Kubernetes 容器 k8s 网络

存储数据库的传输效率提升-ETLCloud结合HBASE

RestCloud

数据库 HBase 数据传输 ETL 数据集成

逐步教你如何获取DeepL翻译API密钥

幂简集成

DeepL API

小程序多端引流技术上的“降本增效”

FinFish

小程序技术 小程序容器技术 小程序多端引流

为什么使用海外云手机进行TikTok矩阵化运营?

Ogcloud

云手机 海外云手机 tiktok云手机 tiktok运营 TikTok矩阵运营

TDengine 签约山东港,赋能港口数字化转型

TDengine

数据库 tdengine 时序数据库

TDengine 荣膺双奖:引领储能与数据库创新

TDengine

tdengine 时序数据库 数据库·

故障演练的逻辑

陈一之

架构设计 混沌工程 故障演练 技术思维

「胖钱包」理论解析:钱包为何将超越协议与应用,赢下「最终用户」争夺战?

TechubNews

DApp质押挖矿系统开发详细案例及源码部署指南

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 代币阿凯

拼多多详情API的价值与应用解析

科普小能手

API 接口 API 测试 拼多多API接口 拼多多API 拼多多商品API接口

快递鸟电子面单模板规格大全

快递鸟

快递 电子面单

如何选择?开发体育赛事直播平台时的源码质量对比!

软件开发-梦幻运营部

精选8款银行开发管理系统,提升工作效率

爱吃小舅的鱼

需求管理工具 需求管理软件 需求管理系统

NFTScan | 10.28~11.3 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案

TDengine

tdengine 时序数据库 数据库·

5 年 “0” 故障,万亿级城商行的非结构化数据底座

XSKY星辰天合

鸿蒙Flutter实战:01-搭建开发环境

星释

flutter 鸿蒙 HarmonyOS NEXT

软件测试学习笔记丨Flask操作数据库-一对多

测试人

软件测试

快递鸟上门取件API接口代码流程

快递鸟

快递物流

软件测试学习笔记丨Flask操作数据库-多对多

测试人

数据库 软件测试 测试开发

友商科技:热仿真分析咨询点击百万 热设计仿真公司

Geek_2d6073

火山引擎大模型网关 x 地瓜机器人教你玩转主流大模型

火山引擎边缘云

边缘计算 机器人 大模型 边缘智能

提升需求文档清晰度的实用技巧

爱吃小舅的鱼

需求管理 需求文档 需求沟通

Fish Agent:多语言 Voice-to-Voice 开源语音模型;Runway 推出摄像机运镜功能丨 RTE 开发者日报

声网

Fluent Editor 富文本开源2个月的总结:增加格式刷、截屏、TypeScript 类型声明等新特性

OpenTiny社区

富文本编辑器 OpenTiny 前端开源

Zypher Network:全栈式 Web3 游戏引擎,引领服务器抽象叙事

西柚子

互联网大厂钟爱的压测工具分享

优测云服务平台

压力测试、

鸿蒙Banner图一多适配不同屏幕

龙儿筝

Web3 游戏周报(10.27 - 11.02)

Footprint Analytics

链游

AI Fabric:通往 GenAI 和数据驱动型企业的最快途径

Altair RapidMiner

人工智能 机器学习 数据分析 altair RapidMiner

使用Actions on Google和API.AI构建会话式应用_Google_Kent Weare_InfoQ精选文章