早在 2013 年时,就有国外动物行为专家表示,未来 5 到 10 年间,动物语言翻译器或将面市,人类与动物沟通从此不成问题。据记者调查发现,目前手机 APP 和网购平台上已有多款动物语言翻译器 APP,其中更是有付费产品,售价可达 388 元。
远在非洲南部的津巴布韦的一位程序员 Ege Kuzubasioglu,就造出了一款可以听懂猫叫的 App,并通过该 App 赚取了百万津巴布韦元。以下,就是 Ege 和他的 App 的故事:
这个故事要从那个“企业家”老兄在领英上给这位程序员发的信息开始说起。
“你只管编程吧,兄弟,我给你 20%的股份,只要你给我做一个能自动驾驶我的车的应用......”
在 Ege Kuzubasioglu 拒绝异想天开先生的慷慨提议之前,他暗暗下定决心,有一天要做出一个听起来很时髦的应用,而且它不会涉及区块链技术,或 NFT 之类的东西(可能 Ege Kuzubasioglu 还不知道 NFT 到底是个啥)。
情人节来临之前,Ege Kuzubasioglu 的女朋友给他发消息询问:
“如果你能为我做一个情人节的应用,岂不是很酷?”
这听起来是个非常棒的主意,原因有二;第一,这样他就用不上发愁礼物的事儿了,第二,他终于可以做前面要做的那个应用了。
Ege Kuzubasioglu 有一只猫咪叫做 Gilbert,它什么都挺好的,就是喵喵叫得太厉害了......真的非常烦人。因为 Gilbert 太能叫了,Ege 只好翻阅以前的机器学习笔记,然后做了一个应用来理解它到底在说什么。这是一个能把喵星人语言翻译成英语的应用。
超级复杂的机器学习内容
Ege 认为,要想翻译猫的语言,首先你应该能分辨出一段声音是否是猫的叫声。听起来很合乎逻辑对不对?为此 Ege 设计了一个非常复杂的深度学习算法,可以分辨出各种声音——开个玩笑。其实他只是用了华为技术公司ML套件中的声音检测器。它可以检测出多达 12 种不同的声音,其中之一就是猫叫。
于是 Ege 认为通过上面的声音检测器,就可以区分出喵喵叫和放屁声了,那么接下来该怎么办?在下面这个阶段,Ege 需要一堆猫叫声的样本,还要有附带的注释标注对应的猫行为类型。
在这个阶段,Ege 沿用了 Yagya Raj Pandeya 和 Joonwhoan Lee 所做的工作,《使用迁移学习分类家猫叫声》。当它们说话时,内容几乎都是与特定情况或行为相关的。
饿了
想玩/想打猎/想出门
恼火/有危险
困了
快乐/舒适
饥渴
愤怒
既然已经有了分类好的行为,现在是时候收集一些样本了。好消息是有很多人在猫叫的时候录了下来,坏消息是 Ege 的 Youtube 历史上有了一大堆这样的搜索记录:
“性感的猫叫声——1 小时高质量”
也许有人会好奇,不过上面就是性感的猫叫声的频谱图像。
当 Ege 把所有原始的样本数据收集成 MP3 格式后,就该把它与 Gilbert 发出的声音做对比了。请记住,因为这个应用是专门针对 Gilbert 的,所以所有用到的数据都来自 1 岁的公猫。
在这个阶段,Ege 必须将应用记录的声音与样本数据做比较,并决定它属于哪种猫叫声类型。
现在有了 Gilbert 的原始音频和用于预训练的样本,是时候对比音频频谱,找出它属于 7 种行为中的哪一种了。为此,Ege 使用了一个从谷歌的音频分析器分叉出来的分析器。
当 Ege 知道它是哪种类型的猫叫声后,就从行为列表中随机显示一段话。比方说,叫声对应的行为类型是“饥饿”,而当时的时间是在中午 12 点之前,这种情况下可能会看到应用显示一句话:“我饿了,把我的早餐给我!”
应用
这个应用叫 WDGS,意思是“Gilbert 在说什么?”,Ege 表示还不打算将这个应用开源,因为它仍处于学习阶段:ML 套件的声音检测器是不稳定的,代码也写得很粗糙,所以它看起来像意大利面条……
是的,这就是 Ege 在空闲时间制作的应用。
资源
https://developer.huawei.com/consumer/en/hms/huawei-mlkit
https://www.ijfis.org/journal/view.html?uid=827&&vmd=Full
https://github.com/bewantbe/audio-analyzer-for-android
https://developer.android.google.cn/jetpack/compose?hl=en
猫狗语言翻译并非新鲜事
狗语翻译器其实并不是新事物,它最早是由日本玩具制造商 Takara 公司在 2001 年 8 月推出的,因其能够翻译“狗语”给人们带来欢乐,获得了 2002 年度的“搞笑诺贝尔奖”。
2013 年,一个名为北欧发明与发现协会(NCID)的团体在 Indiegogo 上为一款名为“No More Woof”的宠物狗穿戴设备发起众筹活动,这款设备可以通过分析小狗在情绪变动时的想法,并经过电脑分析后处理成人类可以理解的语音。不过这个项目最终在 2017 年流产,团队负责人 NCID 曾表示:“我们花了两年多时间,在我们的空闲时间及没有薪水的情况下参与到这个项目中,但这事实证明这仅仅是一个梦想。”
但其实,一些专门训练宠物的驯犬师认为,当人类与猫和狗这类宠物相处时间久了,自然能通过他们的行为猜测到宠物们的意图,也能“听懂”他们所表达的情绪,况且每个宠物表达情绪的方式也不尽相同,与其这样耗时耗力开发出一款应用弄清楚宠物们到底在“说”什么,不如花些时间陪伴。
参考链接:
https://www.sohu.com/a/335429112_161795
评论