在一项涵盖17种大型AI模型与8种棋牌游戏的比较测试中,o3-mini模型表现优异,而DeepSeek R1模型在部分中间步骤上存在不足。当前,AI社区正掀起一股利用大型AI模型进行游戏开发的趋势。例如,国外一位博主发布的DeepSeek和ChatGPT下国际象棋的视频,在YouTube上吸引了超百万观看。此外,ARC Prize组织推出了针对大型语言模型的贪吃蛇评测基准——SnakeBench,为AI游戏性能评估提供了新标准。
o3-mini模型DeepSeek R1AI游戏趋势SnakeBench国际象棋AI
2025-03-31