近期,新濠峰娱乐
2021级硕士研究生戈明远完成的一篇基于相似度对比学习的研究论文“M-CLIP:A Joint Modal Similarity Contrastive Learning Model for Video-Text Retrieval”被CCF B类会议ICASSP 2024接收并发表。该论文在李明勇博士指导下完成。
受图像-文本检索的启发,论文提出了一种基于联合多粒度相似性对比学习的方法用于视频-文本检索。首先,该方法设计了一个时序多模态变换器来提取视频文本数据的多粒度语义特征。此外,该方法进行了模态内和模态间的多粒度相似性计算。该方法结合了每个维度的特征进行对比,在视频文本检索任务中学习更多独特的特征。更重要的是,该方法增强了同一模态内不同粒度特征之间的交互。最后,为了获得实例级的相似性,论文提出了注意力联合模态相似性模块,它使用一个注意力机制来聚合和分配不同的权重的相似性向量/矩阵中的分数。在4个视频文本基准数据集上的实验表明,该方法在检索性能方面优于现有的方法,验证了所提出方法的有效性。通过消融实验发现模态内相似性与模态间相似性结合能表现出优异的性能。
ICASSP (IEEE International Conference on Acoustics, Speech and Signal Processing)会议即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,是IEEE(电子技术与信息科学工程师协会)旗下的重要国际会议,被中国计算机学会(CCF)推荐为B类会议。2024 年ICASSP会议于 2024 年 4 月 14-19 日在韩国首尔举行。