欢迎来到网际学院,让您的头脑满载而归!

CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络

发布日期:2020-04-06 21:33:40 作者:管理员 阅读:275

论文链接:https://arxiv.org/abs/2003.08813论文代码:https://github.com/luogen1996/MCN该论文名为《Multi-task Collaborative Network for Jo

CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络

CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络

论文链接:https://arxiv.org/abs/2003.08813

论文代码:https://github.com/luogen1996/MCN

该论文名为《Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation》,其首次提出单阶段的协同学习网络来同时解决指向性目标检测(Referring Expression Comprehension)和指向性目标分割(Referring Expression Segmentation)两个任务,而且在性能超越了 SOTAs 的条件下,达到了实时检测和协同检测的目的。

论文的共同一作为厦门大学媒体分析与计算实验室(纪荣嵘 团队)硕士生罗根和博士后周奕毅,并由厦门大学媒体分析与计算实验室(纪荣嵘团队)和深度赋智合作指导完 成。以下是论文一作罗根对该论文做出的解读:

背景 

CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络

给定一句语言描述,Referring Expression Comprehension (REC) 旨在检测出与该描述相关的目标 bounding box,而 Referring Expression Segmentation (RES) 旨在分割出对应目标。REC 和 RES 长期以来被当成两个不同的 任务来看待并被设计出了大量的单任务网络,例如将语言模块嵌入到语义分割网络(RES)或者利用语言来检索目标(REC)。尽管其中有一些基于目标检索的多阶段网络,例如 MAttNet,能得到两个任务的结果,但究其本质仍是单任务的检索(ranking)网络,其多任务的结果归根于后端的 mask-rcnn。


与此同时,这种依赖于预训练目标检测器先提特征后利用语言特征和其进行交互检索的方式不仅仅费时费力,而且有如下弊端:1)两个任务无法在多模态学习中相互促进;2)frcnn/mrcnn 特征丢失了预训练 CNN 网络的关系先验和空间先验;3)当 proposals 中没有候选目标,检索网络将毫无疑问会失败。