复旦大学与美团LongCat团队联合推出R-HORIZON,标志着长程推理领域的重要进展。该方法与基准系统性地评估并提升长链推理模型(LRMs)的性能,为复杂推理任务提供了全新的解决方案。R-HORIZON不仅优化了模型在多步骤逻辑推导中的表现,还建立了标准化测试体系,推动LRMs在真实场景中的应用落地。
美团LongCat团队近期推出了一项名为VitaBench的评测基准,专注于评估大模型智能体在真实生活场景中的综合能力。该评测工具以点外卖、餐厅就餐和旅游出行为核心场景,构建了包含66个工具的交互式环境,并设计了跨场景的复杂任务,全面测试模型的决策与执行能力。VitaBench的发布标志着大模型评测从单一任务向多步骤、真实情境迈出了重要一步,为智能体技术的发展提供了更具挑战性和实用性的评估标准。
美团在人工智能开源领域持续发力,继24天前发布首个大型语言模型后,再次宣布开源其自主研发的推理模型LongCat-Flash-Thinking。该模型继承了基础模型LongCat-Flash的高效特性,具备快速响应与低延迟优势,适用于多种实际应用场景。据美团技术报告披露,LongCat-Flash-Thinking基于公司自研的DORA强化学习框架完成训练,显著提升了模型在复杂任务中的推理能力与稳定性。此次开源标志着美团在AI底层技术布局上的进一步深化,展现了其推动行业技术共享与协作发展的决心。
本文探讨了美团的技术架构和业务架构的演进,以及O2O企业技术优化的实践。文章详细介绍了美团技术架构的发展历程,业务架构的优化策略,以及如何通过技术优化实现O2O业务流程的深度融合和创新。通过这些实践,美团不仅提升了用户体验,还大幅提高了运营效率。




