西湖大学AGI实验室的张驰团队近期发布了一款名为AppAgentX的新型智能体。该智能体具备自我进化能力,能作为图形用户界面(GUI)代理,通过持续学习和适应环境,显著提升其操作智能手机的效率与精准度。这一创新成果标志着智能手机自动化操作领域的重要进展。
在先前的文章中,作者介绍了其开发的RAG(Retrieval-Augmented Generation)项目及其新增功能。本文将补充说明递归检索和迭代查询这两个被遗漏的重要特性,并探讨它们如何与成熟的框架API重新结合,以提升项目的整体性能。递归检索允许系统在初次检索未达预期时,自动进行多层级的信息查找;而迭代查询则通过逐步优化查询条件,确保结果的精准性。两者结合框架API,不仅增强了系统的灵活性,还显著提升了处理效率。
TimeDistill是一种创新的时序预测方法,它通过知识蒸馏技术将大型复杂模型(如Transformer和CNN)的预测能力迁移至更轻量级的MLP模型中。该方法专注于提取多尺度和多周期的时间序列模式,显著提升了MLP模型的预测精度。同时,TimeDistill保持了高效的计算性能,为时序预测任务提供了一个既高效又准确的解决方案,全面超越了现有的最佳实践。
近日,Manus智能体复现热潮席卷而来。DeepSeek项目成功整合后,在开源榜单上迅速攀升至领先地位,吸引了众多海外知名人士争相索要代码。尤其引人注目的是,进度最快的两个复现项目在Manus发布首日便发布了相关代码,展现了极高的开发效率和技术实力。这一现象不仅体现了Manus智能体的广泛影响力,也标志着人工智能领域的新里程碑。
谷歌近期发布了一个包含1000亿文本-图像对的大型数据集,规模是之前同类数据集的10倍。研究发现,预训练的Scaling Law在模型性能提升方面作用有限,但在小语种等特定指标上表现出显著进步。这一成果令专注于视觉变换器(ViT)的研究者翟晓华感到振奋。该数据集不仅为研究人员提供了丰富的资源,还揭示了预训练模型在不同语言环境下的潜力。
最近,加州Hao labs实验室推出了一项名为“GamingAgent”的创新项目,专注于测试人工智能在实时动作游戏中的性能。该项目以《超级马里奥》等经典游戏为平台,旨在评估大型AI模型的反应速度与决策能力,成为衡量AI技术的新标准。通过这一项目,研究人员能够更深入地了解AI在复杂环境下的表现,推动人工智能技术的发展。
卡内基梅隆大学(CMU)团队近期发布了一项名为LCPO的新技术,该技术显著提升了AI模型的性能。通过LCPO训练的15亿参数L1模型,在数学推理任务中的表现比S1模型提升了超过100%。此外,L1模型在逻辑推理和MMLU等非训练任务上也表现出色,尤其在简短推理中,其性能与GPT-4o相当,且每token性能是S1模型的两倍。
最近的研究揭示了困惑度指标在处理长文本任务时的不足。为解决这一问题,北京大学、麻省理工学院和阿里巴巴集团联合推出了一项新的评估标准——LongPPL。研究表明,尽管某些模型在困惑度指标上表现优异,但在实际长文本应用中并未达到预期效果。LongPPL旨在更准确地衡量模型在长文本生成和理解方面的能力,从而提供更可靠的性能评估。
根据清华大学和中国人民大学的最新研究,实现真正的人工通用智能(AGI)预计还需70年。研究表明,达到自主级智能所需的参数量高达10的26次方,而支持这一规模的GPU成本相当于苹果公司市值的4×10的7次方倍。这为当前AI领域的快速发展提供了冷静视角,强调了通往AGI之路漫长且充满挑战。
一名准博士生创新性地将导师的履历和论文输入到ChatGPT中,成功创建了“AI评委”。该AI评委能够模拟博士资格考试的面试环节,并表现出惊人的准确性。通过输入评委的个人资料和学术成果,生成数字形象,模拟出考试中可能提出的问题,帮助学生更好地准备并顺利通过资格考试。这一实验展示了AI在教育领域的巨大潜力。
本文旨在评估Ollama的高并发处理能力,通过一系列严格的测试验证其在面对大量并发请求时的性能表现。测试结果显示,在高并发场景下,Ollama能够稳定处理每秒数千条请求,响应时间保持在毫秒级别,展现出卓越的并发处理能力和高效的任务调度机制。这些数据证明了Ollama在高负载环境下的可靠性和稳定性,为用户提供了一个值得信赖的选择。
据外媒the Information报道,微软正独立研发名为MAI(Microsoft Artificial Intelligence)的人工智能模型。目前,微软正在进行性能测试,评估MAI在多种任务中的表现,特别是作为Copilot AI智能助手的能力。这一研发标志着微软在人工智能领域的又一重要进展。
在ICLR 2025 Spotlight会议上,一项引人注目的研究提出了一种创新方法,利用多模态信息进行3D小样本分割。该研究专注于Few-shot学习技术,通过极少量的标注样本使模型快速适应新类别,从而显著提升其在小样本情况下的性能。这种方法不仅增强了模型的学习效率,还为解决标注数据稀缺的问题提供了新的思路。
Ollama是一款开源工具,旨在简化大型语言模型(LLM)在本地计算机上的部署与运行。它提供简洁高效的用户界面,使用户能够轻松创建、执行和管理复杂的语言模型。无论是开发者还是普通用户,都能通过Ollama更便捷地利用强大的语言模型技术,提升工作效率和创新能力。
近日,香港科技大学联合中国科学院软件研究所、西安电子科技大学及重庆大学等机构,共同发布了一款小型形式化推理与验证模型。该模型参数规模仅为7B,却在相关任务上的表现媲美671B参数的DeepSeek-R1完整版。这一成果不仅彰显了高校合作的力量,也标志着参数精简技术的重大突破。此外,该模型已全面开源,为学术界和工业界提供了宝贵的研究工具。
曾参与开发AlphaGo项目的谷歌DeepMind前资深成员Ioannis Antonoglou,现与Gemini核心团队共同创立了Reflection初创公司。该公司在种子轮融资中成功筹集1.3亿美元,由红杉资本等知名投资机构领投,英伟达也参与其中。 Reflection致力于通过强化学习技术开发超级人工智能,这一项目获得了业界的高度期待和信心。