本文基于Interesting Engineering++最新研究,构建统一分析框架,对当前主流AI自主研究系统开展横向评价。该框架涵盖任务规划、知识检索、实验设计、结果验证与迭代优化五大核心能力维度,系统比较了包括AutoGen、MetaGPT、Research Assistant Pro及OpenDevin在内的七类开源与闭源AI系统。数据显示,仅37%的系统能完整闭环执行跨领域科研任务,而具备自主提出可验证假说能力的不足12%。研究指出,当前AI自主研究仍高度依赖人类设定目标与评估标准,真正的“端到端”科研代理尚未成熟。