了解视觉语言
神经网络实际上就是在学习一种表示,在CV领域,良好的视觉和视觉语言(vision and vision-language)表征对于解决计算机视觉问题(图像检索、图像分类、视频理解)至关重要,并且可以帮助人们解决日常生活中的难题。 例如,一个好的视觉语言匹配模型可以帮助用户通过文本描述或图像输入找到最相关的图像,还可以帮助像 Google Lens 这样的设备找到更细粒度的图像信息。 为了学习这样的表示,当前最先进的视觉和视觉语言模型严重依赖于需要专家知识和广泛标签的训练数据集。 对于视觉相关的应用场景来说,视觉表示主要是在具有显式类标签的大规模数据集上学习的,如 ImageNet、 OpenImages 和 JFT-300M等。 对于视觉语言的应用来说,常用的预训练数据集,如Conceptual Captions和Visual Genome Dense Captions,都需要大量的数据收集和清理工作,这限制了数据集的大小,从而阻碍了训练模型的规模。 相比之下,自然语言处理的模型在 GLUE 和 SuperGLUE 基准测试中,他们达到sota性能是通过对原始文本进行大规模的预训练而不使用人工标签。 在 ICML 2021会议上,Google Research发表了Scaling up visual and vision-language representation learning with noisy text supervision一文,建议利用公开的图像替代文本数据(如果图像未能在用户屏幕上显示,则在网页上显示替代图像的书面文本)来弥补这一差距,以训练更大、最先进的视觉和视觉-语言模型。 在社会影响方面,虽然这项工作从方法论的角度来看,以简单的数据收集方法显示了令人满意的结果,但在实践中负责任地使用该模型之前,还需要对数据和由此产生的模型进行进一步分析。例如,应当考虑是否有可能利用备选案文中的有害文本数据来加强这种危害。关于公平性,可能需要努力平衡数据,以防止从网络数据加强定型观念。应该对敏感的宗教或文化物品进行额外的测试和训练,以了解并减轻可能贴错标签的数据带来的影响。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |