Teachable Machine 是一个浏览器应用,用户可以使用它训练自己的网络摄像头识别物体或语句。
在应用的演示中,用户使用网络摄像头识别三种不同类别的物体或语句。根据摄像头的输入,网站显示了不同的图片、播放预先录制的声音或播放语音。该应用不需要用户做任何编程,也不需要对超参数或网络架构做任何编程。对用户而言,来自于机器的唯一反馈是机器对每个预测类的置信度。根据被识别出的类型,机器会从三个不同图片中选择一个展示。图片分别是一只猫、一条狗和一个可爱的兔子。在Youtube 上给出了一个如何使用Teachable Machine 的很好教程:
所有的训练都是使用 deeplearn.js 软件库在浏览器中完成的。该软件库是一个使用硬件加速的 JavaScript 库,由 Google Brain PAIR 团队构建并开放提供。软件库是 2017 年八月在 Google 博客上发布的,在 deeplearn.js 网站上还提供了多个使用该库的应用。
用户只需要对自己想要识别的一些对象拍照。训练的加速是通过下载称为“squeezenet”的预先训练好的神经网络实现的。根据研究论文,相对于做对比的神经网络,squeezenet 减少了50 倍的训练参数。这意味着,squeezenet 可以作为小于0.5MB 的文件下载。虽然该神经网络具有更少的参数,但其输出不逊于大型的神经网络,完全适用于这个简单的浏览器应用。该应用使用了预先训练好的神经网络的输出,去学习网络摄像头中展示的物体。
Teachable Machine 的源代码已提供在GitHub 上。deeplearn.js 的上手操作指令及该库的源代码也提供于GitHub 上。
查看英文原文: Teachable Machine: Teach a Machine Using Your Camera in Your Browser
评论