上海人工智能实验室联合浙江大学等机构共同发布了首个面向视频到代码任务的基准测试——IWR-Bench,旨在更精准评估大型语言模型(LVLM)在交互式网页重建中的能力。该基准测试通过模拟真实场景下的视觉输入与代码输出,全面衡量模型的理解与生成性能。在测试中,GPT-5模型取得了36.35分的成绩,展现了当前大模型在复杂跨模态任务中的潜力与局限。这一成果为AI驱动的前端开发自动化提供了重要评估标准,推动视频转代码技术向更高精度发展。
客服热线请拨打
400-998-8033