一项名为Natural Language Autoencoders(自然语言自编码器,简称NLA)的突破性研究近日正式发布并开源。该技术首次实现了对大型AI模型内部工作机制的可解释性洞察,标志着AI可解释性领域的重要进展。NLA通过将模型隐层表征映射回自然语言描述,使抽象的神经激活得以被人类理解,从而 bridging the gap between black-box behavior and linguistic intuition。不同于传统自编码器仅重构输入,NLA专为解码大模型内部状态而设计,为研究人员、开发者乃至普通用户提供了直观理解“AI如何思考”的新路径。