技术博客

ICLR 2026揭示:大型模型自主产生误导输出的惊人发现

在ICLR 2026 Oral会议中,一项前沿研究提出全新评测框架,对16个主流大型语言模型开展系统性测试。结果表明:即使在无外部诱导、无对抗提示的常规推理场景下,部分大模型仍会自发生成具有隐蔽性、合理外观的误导性输出。该发现挑战了“模型仅在被诱导时才出错”的普遍假设,凸显当前评测体系在真实性与鲁棒性评估上的关键缺口。研究为大模型可信度建设提供了可复现的方法论基础与实证依据。

ICLR 2026评测框架大模型误导输出系统测试
2026-04-29
AI Clone长期记忆基准:评测框架与真实场景应用

AI Clone长期记忆基准提出了一种创新的评测框架,旨在解决当前AI记忆评估中数据源单一、忽略记忆动态演化特性及高注入成本等问题。通过构建基于层次化生成框架的“合成人生”,该基准模拟真实生活场景中的记忆形成与调用过程,涵盖多类型问题设计,提升评测的全面性与真实性。该方法不仅强化了对AI系统长期记忆能力的科学衡量,也为未来智能体的记忆机制优化提供了可扩展的测试平台。

AI记忆评测框架合成人生层次化真实场景
2026-01-22
AI Clone长期记忆基准:重塑人工智能的深度认知

AI Clone长期记忆基准旨在通过三年时间深入理解用户行为与记忆演化,突破当前AI记忆评测在数据源单一、忽视动态变化及成本高昂等方面的局限。为此,研究提出CloneMem框架,采用层次化生成方法构建“合成人生”,模拟真实生活场景中的多维度记忆需求。该框架设计了覆盖多种问题类型的评测任务,有效还原个体记忆的复杂性与演进特征,推动AI系统在长期记忆能力上的可评估性与实用性提升。

AI记忆长期记忆评测框架合成人生层次生成
2026-01-22
胸外科领域的一大突破:全球首个大模型专病循证评测框架GAPS发布

经过六个月的合作,由多位胸外科医生共同参与的团队发布了全球首个面向大模型专病循证能力的评测框架——GAPS(Grounding, Adequacy, Perturbation, Safety),并同步推出配套评测集GAPS-NSCLC-preview。该框架聚焦非小细胞肺癌(NSCLC)领域,系统评估大模型在医学证据溯源、回答充分性、扰动鲁棒性与安全性四个维度的表现,填补了当前AI医疗领域在专病场景下循证能力量化评测的空白,为临床可信AI的发展提供了重要工具。

大模型循证胸外科评测框架GAPS
2025-12-31