为了提升DeepSeek的可靠性,清华大学研究团队提出了基于超图理论的Hyper-RAG技术。该技术通过捕捉低阶与高阶关联信息,显著减少了知识建模中的信息损失,从而有效降低了大型语言模型(LLM)生成错误的概率。这一创新方法为结构化知识处理提供了更精确的解决方案。
近日,由UCLA与Meta联合开发的新型技术框架d1正式发布。该框架融合了扩散模型与类GRPO强化学习技术,显著提升了大型语言模型(LLM)在推理任务中的表现,超越传统自回归(AR)方法。通过开源共享,d1为大语言模型赋予更强的数学计算、逻辑推理及深度思考能力,标志着AI技术的重要突破。
最新研究显示,MAS-TTS框架将古老谚语“两个脑袋比一个好”应用于大型语言模型(LLM),通过协同工作实现41%的性能提升。这种方式类似智囊团运作,多个智能体共同解决问题,效率显著提高,为未来AI发展提供了新思路。
谷歌首席科学家Jeff Dean在苏黎世联邦理工学院的信息学研讨会上,深入探讨了人工智能的重要趋势。他回顾了AI技术的发展历程,特别是大型语言模型(LLM)的演变,以及Transformer、模型蒸馏和Mixture of Experts(MoE)等关键技术的贡献。这些技术均源于谷歌的研究成果。此外,Dean还分析了当前AI的能力,并对其未来发展方向进行了展望。
Jeff Dean在其演讲中回顾了大型语言模型(LLM)的发展历程,重点梳理了谷歌过去十五年在AI领域的研究成果。他详细阐述了Gemini系列模型的演进,并介绍了Transformer、模型蒸馏、Mixture of Experts(MoE)及思维链等关键技术。这些技术不仅推动了AI的进步,还为未来积极影响世界提供了可能。
非结构化数据,如电子邮件、PDF文件和会议记录等,在工作与生活中普遍存在。由于缺乏统一格式,传统数据处理方法难以应对。然而,人工智能技术,特别是大型语言模型(LLMs),为非结构化数据的高效处理提供了创新解决方案,显著提升了会议记录分析等场景的工作效率。
近年来,大型语言模型(LLMs)在数学编程及推理领域取得了显著进展。以OpenAI-o1和DeepSeek-R1为代表的推理型大型语言模型(RLLMs),展现出卓越性能。这些模型通过复杂的算法优化与海量数据训练,能够高效解决复杂任务,其背后的技术原理与优势值得深入探讨。
IBM的AutoPDL技术通过数据驱动的方式优化了Agent的提示模式,显著提升了性能,增幅高达68.9%。这项技术基于去年10月推出的PDL语言,为大型语言模型的开发提供了前沿解决方案。传统上,提示模式的选择(如Zero-Shot、CoT等)依赖经验和直觉,而AutoPDL实现了基于数据的科学决策,大幅减少了开发时间和成本。
通过归因图技术对大型语言模型(LLM)进行逆向工程,可揭示其复杂的决策机制。这项研究旨在将黑箱性质的模型转化为透明工厂,借助思维监控屏技术,清晰展示模型内部的计算回路与运作逻辑,从而提升公众对其工作原理的理解。
当前,众多软件开发者依赖大型语言模型(LLM)辅助编程工作,但这一技术存在潜在风险。LLM有时会虚构信息,并可能向不够谨慎的开发人员提供恶意代码。这种现象提醒开发者需对LLM生成的内容保持警惕,以确保代码的安全性和准确性。
阿里在智能化研发领域取得重大突破,RTP-LLM技术的创新应用使Cursor AI的推理速度达到每秒1000个token。这一成就得益于对大型语言模型(LLM)自回归过程的深度优化,显著提升了推理效率。相比其他AI应用,该技术为更快速、精准的语言处理提供了可能,标志着AI技术发展的新里程碑。
V-Droid智能体通过验证器驱动架构,成功实现了移动图形用户界面(GUI)的自动化。借助离散化动作空间与大型语言模型(LLM)评估候选动作,V-Droid在高效决策方面表现出色。在AndroidWorld等基准测试中,其任务成功率分别达到59.5%、38.3%和49%,且决策延迟仅为0.7秒,接近实时响应水平,为移动GUI自动化提供了实用解决方案。
近日,谢赛宁团队发表了一项名为MetaQuery的新技术。该方法由Meta与纽约大学共同研发,旨在使多模态模型快速具备生成能力,其效果可媲美GPT-4o。传统观点认为,这种能力需通过微调大型语言模型(MLLM)实现,而MetaQuery以简单高效的方式打破了这一限制,为多模态生成领域带来了新的可能性。
在学术论文撰写中,文献引用的准确性至关重要。尽管大型语言模型(LLM)如ChatGPT和GPT-4能生成高质量文本,但其“引用幻觉”问题可能导致虚构不存在的文献引用,从而损害论文的可靠性和专业性。研究者需谨慎对待此类工具生成的内容,确保引用来源的真实性和准确性。
EAGLE团队近期发布了一篇题为《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》的研究论文。该研究通过一系列创新优化技术,成功解锁了投机采样的Scaling Law能力,实现了大型语言模型推理速度最高提升6.5倍的突破。这一技术在显著加速模型推理的同时,保持了模型输出分布不变,确保了无损优化的效果。这项成果为大型语言模型的实际应用提供了更高效、更稳定的解决方案。
构建预防和治理大型语言模型产生幻觉及其潜在价值风险的体系,是当前人工智能发展的重要课题。通过系统化的策略,如数据筛选、模型训练优化及多层审核机制,可有效降低幻觉风险。同时,结合技术与伦理规范,确保模型输出内容的安全性和可靠性,为社会创造更大价值。