用语言建模做目标检测，性能比肩DETR

发布时间：2021-10-05 16:09:36 所属栏目：传媒来源：互联网

导读：视觉目标检测系统旨在在图像中识别和定位所有预定义类别的目标。检测到的目标通常由一组边界框和相关的类标签来描述。鉴于任务的难度，大多数现有方法都是经过精

视觉目标检测系统旨在在图像中识别和定位所有预定义类别的目标。检测到的目标通常由一组边界框和相关的类标签来描述。鉴于任务的难度，大多数现有方法都是经过精心设计和高度定制的，在架构和损失函数的选择方面用到了大量的先验知识。

图灵奖得主 Geoffrey Hinton 和谷歌研究院的几位研究者近日提出了一个用于目标检测的简单通用框架 Pix2Seq。与显式集成相关任务先验知识的现有方法不同，该框架简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。其中，将对目标的描述（例如边界框和类标签）表示为离散 token 的序列，并且该研究还训练神经网络来感知图像并生成所需的序列。

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

论文地址：https://arxiv.org/abs/2109.10852

该方法主要基于一种直觉，即如果神经网络知道目标的位置和内容，那么就只需要教它如何读取目标。除了使用特定于任务的数据增强之外，该方法对任务做出了最少的假设。但在 COCO 数据集上的测试结果表明，新方法完全可以媲美高度专业化和优化过的检测算法。

Pix2Seq 框架

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

该研究提出的 Pix2Seq 框架将目标检测作为语言建模任务，其中以像素输入为条件。上图所描述的 Pix2Seq 架构和学习过程有四个主要组成部分，如下图 2 所示，包括：

图像增强：在训练计算机视觉模型中很常见，该研究使用图像增强来丰富一组固定的训练样例（例如，随机缩放和剪裁）。ASP站长网

序列构建和增强：由于图像的目标注释通常表征为一组边界框和类标签，该研究将它们转换为离散 token 的序列。

架构：该研究使用编码器 - 解码器的模型架构，其中编码器感知像素输入，解码器生成目标序列（一次一个 token）。

目标 / 损失函数：该模型经过训练以最大化 token 的对数似然。

（编辑：焦作站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!