技术博客

视觉语言模型中的注意力偏置问题研究

研究人员从注意力机制的可靠性出发,系统性揭示了当前主流视觉-语言模型中普遍存在的注意力偏置问题——即模型在跨模态对齐过程中,倾向于过度关注图像边缘、文本高频词或特定位置,而非语义关键区域。该偏置显著削弱模型在推理、细粒度理解等任务中的鲁棒性与公平性。针对此问题,研究提出一种无需重新训练的轻量级去偏方法,通过动态校准注意力权重分布,在保持原始模型结构与参数不变的前提下,有效缓解偏置效应。实验表明,该方法在多个基准数据集上稳定提升模型性能,且兼容各类主流视觉-语言架构。

注意力机制视觉语言模型注意力偏置去偏方法无需重训
2026-02-04
微调技术的安全性革新:探索蚂蚁集团与南洋理工大学的创新安全框架

蚂蚁集团与南洋理工大学联合发布了一种全新的微调安全框架,该框架具备即插即用、无需重新训练的特性,旨在提升大模型在微调过程中的安全性与效率。传统微调方法在增强模型能力的同时,往往可能导致安全对齐能力下降,带来潜在风险。该安全框架通过创新技术路径,确保模型在适应新任务时仍保持原有的安全对齐特性,有效解决了这一关键问题。该方案已在多项实验中验证其有效性,显著提升了模型在复杂场景下的安全响应能力,同时保持高效部署,为AI模型的实际应用提供了可靠保障。

安全框架微调技术模型对齐即插即用无需重训
2025-11-20