首个混合推理模型Claude 3.7已正式发布,该模型在编程能力方面取得了全面领先。尤其值得注意的是,它能够在精确控制思考时间的同时,在GPQA(涵盖生物、化学和物理问题的挑战性问题集)上取得卓越成绩。通过利用256个独立样本的等效计算和学习评分模型,并在最大64 token的思维成本限制下,Claude 3.7 Sonnet实现了84.8%的GPQA分数,其中物理子分数更是高达96.5%,展现了其在复杂问题解决上的强大能力。
混合推理模型编程能力思考时间GPQA分数物理子分数
2025-02-25