智能数据分析与系统实验室-应用组报告
彭琨
中国海洋大学计算机系硕士
日期:2025年6月9日(星期一) 时间:7:00pm - 10:00pm 地点:信息南楼-A421
汇报内容:
《Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding》。这篇论文提出了一种新型的动态多模态Transformer解码器(Dynamic MDETR),用于视觉定位任务。该方法通过将视觉定位过程分解为编码和解码两个阶段,利用2D自适应采样模块和文本引导解码模块,有效减少了计算量并提升了定位精度。实验表明,该方法仅使用9%的特征点,就能将多模态Transformer的计算量减少44%,同时在多个基准数据集上取得了优于传统编码器架构的性能。此外,该方法还首次将CLIP作为视觉定位的骨干网络,进一步提升了性能,展示了其强大的泛化能力和扩展性。