IndieGogo 众筹平台上的初创公司 Jibo 最近发布了一款应用程序开发 SDK ,又名 Skills(技能),可用于开发家用“社交机器人”,主要针对娱乐、教育和物联网集成等市场。
Jibo 试图创造一种环境交互式机器人,这种机器人将能识别人的声音和面孔,能讲话,能看懂可视内容,能够活动“胸腔”和“头部”等身体部件。
Jibo SDK 旨在帮助开发者使用 JavaScript API 创建“技能”,该 API 可供开发者访问 Jibo 平台提供的使用 C/C++ 开发的各种计算密集型服务。目前开发者可通过 Jibo SDK 获得的能力包括:
- 音频和语音技术,可用于识别话语并通过说话作出回应。
- 视觉处理能力,使其可识别面孔和活动,并在自己的显示设备上展示动态的可视化内容。
- 通过三个伺服马达实现交互和移动能力。Jibo 的目标之一在于让机器人即使变得更加平易近人,让大家创造更丰富,更富于表现力的动作。
有趣的是,Jibo 虽然有两个摄像头,但开发者无法直接使用。开发者只能通过空间化呈现(Spatial representation)了解 Jibo“看到”的内容。这样可以杜绝有人通过 Jibo 的摄像头窥探他人。
根据 Jibo 的 SDK 开发主管 Jonathan Ross 介绍,决定使用 JavaScript 是因为这是一种增长速度最快的语言,在库和编程工具方面有着丰富的生态系统。Jibo SDK 本身以 Electron 为基础构建,其中包含一个动画编辑器,一个行为编辑器,一个语音编辑器,以及一个模拟器。
在与 InfoQ 的交谈中,该公司的开发推广人 Justin Woo 和 SDK 开发主管 Jonathan Ross 解释说,Jibo 可以连接至任何提供公开 API 的 IoT 设备,因此可以让其充当“家庭指挥官”。
最初发布的 Jibo 机器人主要针对热衷于新技术的家庭,例如单身或已经开始做父母的年轻 X 一代,主要是零零后。考虑到具体应用,我们将其称之为 Jibo 的“技能”,并把 Jibo 看作一种能扮演不同角色的家庭伴侣,例如 Jibo 可以是老师,可以是艺人,可以是家庭指挥官。当你真正把 Jibo 看作一个能参与到家庭生活的“人”,最终能实现的“技能”几乎是无穷无尽的。
根据 Woo 和 Ross 的介绍,Jibo SDK 基于行为树(Behavior tree),这种模式很适合用于行为建模,以及各种自主代理程序的控制流,同时还可对当前行为以及决策工作进行协调。
Woo 和 Ross 进一步解释说,Jibo 使用了两种云服务:一种用于持久数据存储,这样便可将技能数据安全地备份到云端,防范数据丢失;另一种用于实现与文本无关的音频语音识别和自然语言理解。然而 Jibo 的语音识别功能并非总是需要使用云服务:
Jibo 的唤醒短语“嘿,Jibo”是在本地处理的,只有听到这句话后,后续的语音才需要发到云端处理。其次是持久数据存储,每个技能都对应着 Jibo 本地内存中一块可读写的受保护区域,Jibo 会用安全的方式将这些数据备份到云端,无需担心数据丢失问题。
机器人可以在本地完成一系列任务,包括:视觉、感知、音频定位、语音 ID、面孔 ID、动作 / 马达控制、自然语言理解、文本无关的语音识别、文字到语音(Jibo 的声音)、图形和音频。
目前 Jibo SDK 已发布,Jibo 设备预计会在2016 年底发布。除了SDK,Jibo 还发布了一个开发者论坛。
查看英文原文: Jibo Releases SDK Aiming to Bring Robotics into Homes
评论