作者一半以上是中国人!Google Research图像表示模型ALIGN主导I
多模态(图像 + 文本)图像搜索查询单词向量的一个令人惊讶的特性是,单词类比通常可以用向量算法解决。一个常见的例子,“ king-man + woman = queen”。图像和文本嵌入之间的这种线性关系也出现在 ALIGN 中。
具体来说,给定一个查询图像和一个文本字符串,将它们的 ALIGN embedding相加到一起,并使用余弦距离检索相关图像。
过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet 这些例子不仅说明了 ALIGN 嵌入跨视觉域和语言域的组合性,而且表明了使用多模态查询进行搜索的可行性。例如,人们现在可以寻找“澳大利亚”或“马达加斯加”大熊猫的等价物,或者把一双黑鞋变成看起来一模一样的米色鞋子。此外,还可以通过在嵌入空间中执行减法来删除场景中的对象/属性。
在社会影响方面,虽然这项工作从方法论的角度来看,以简单的数据收集方法显示了令人满意的结果,但在实践中负责任地使用该模型之前,还需要对数据和由此产生的模型进行进一步分析。例如,应当考虑是否有可能利用备选案文中的有害文本数据来加强这种危害。关于公平性,可能需要努力平衡数据,以防止从网络数据加强定型观念。应该对敏感的宗教或文化物品进行额外的测试和训练,以了解并减轻可能贴错标签的数据带来的影响。
还应该进一步分析,以确保人类的人口分布和相关的文化物品,如衣服、食物和艺术品,不会造成曲解的模型性能。如果这些模型将在生产环境中使用,则需要进行分析和平衡。
综上所述,Google Research提出了一种利用大规模图文数据进行视觉和视觉语言表征学习的简单方法,模型 ALIGN 能够进行跨模态检索,并且明显优于 SotA 模型。在纯视觉的下游任务中,ALIGN 也可以与使用大规模标记数据进行训练的 SotA 模型相比,或者优于 SotA 模型。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |