谷歌最近公布了“与你相像的医疗图像”(Similar Medical Images Like Yours,SMILY)工具的研究工作进展,这个工具使用概念向量来增强医疗图像的搜索。这项研究工作使用 embedding 技术进行基于图像的搜索,用户可以通过概念交互细化来影响搜索。
谷歌先后发表了两篇论文。第一篇论文“组织病理学的相似图像搜索:SMILY”(Similar Image Search for Histopathology: SMILY)关注的是深层神经网络架构,主要用于创建搜索相似图像所需的 embedding。第二篇论文“在医疗决策过程中处理不完美算法的工具”(Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making)集中在人类交互方面,以便提升在第一篇论文中提及的工具的使用。用户可以调整图像中的概念数量,而这反过来通过增强 embedding 中的位置来影响相似图像的选择。
用于创建 embedding 的深度神经网络是一种叫作深度排名网络的架构。该网络由三个并行的神经网络组成,分别接收三个独立的输入。第一个神经网络获取被搜索的图像,第二个神经网络获取与第一个同类的图像,第三个神经网络获取不同类别的图像。这三个网络都会创建 embedding,并经过训练,用以缩短同类图像与不同类图像之间的距离。这个神经网络架构可以为 300×300 像素的图像生成 128 维的 embedding。谷歌表示:
我们使用大约 5 亿张 18000 不同类别的“自然图像”(例如狗、猫、树、人造物体等)来训练我们的网络,因此它学会了通过计算和比较输入图像的 embedding 来区分相似和不同的图像。
在第一篇论文“组织病理学的相似图像搜索:SMILY”中,谷歌展示了用户选择图像片段,为图像片段创建 embedding,然后使用 K 近似算法从 embedding 空间检索相似的图像。但他们发现,用户在搜索相似图像时无法传达搜索意图,限制了工具的参与度。因此,第二篇论文继续进行深入研究,以改进交互搜索。
在第二篇论文“在医疗决策过程中处理不完美算法的工具”中,谷歌引入了一个称为“按概念进行细化”的特性,以此来改进这个工具。这个特性使用 embedding 维度中的方向来表示概念。选取一组图像样本,并对具有概念或相反概念的图像进行标记,确定方向,然后使用线性分类器在 embedding 空间中识别平面。然后进一步计算出平面的正交向量,也就是概念的方向。然后,用户通过影响概念的流行程度对搜索进行补偿,这样会影响所选图像生成的 embedding,进而影响相似图像的 K 近似选择。
原文链接:
Google Research Into Concept Vectors for Image Search
评论