技术博客

文本聚类的新范式:LLM嵌入与HDBSCAN的融合应用

本文提出一种融合大型语言模型(LLM)嵌入技术与HDBSCAN密度聚类算法的文本聚类流程,面向中文未经标注的文本数据,实现高效、自动的主题发现。该方法充分发挥LLM对语义深层表征的建模能力,将文本映射至高维语义空间;再依托HDBSCAN对簇形状与噪声的鲁棒性,识别出结构复杂、规模不一的潜在主题簇。整个流程完全无监督,无需人工标注或预设类别数,显著提升主题发现的可扩展性与实用性。

文本聚类LLM嵌入HDBSCAN无监督主题发现
2026-06-29
视觉推理新范式:基于离散词汇的革命性突破

近期,一种颠覆性的视觉推理新范式被提出:它无需调用外部工具、不显式生成中间图像,亦无任何视觉监督信号,仅依赖单一离散词汇即可完成复杂视觉推理任务。该方法首次在技术路径上完全替代了传统Agentic与Latent Visual Reasoning两大主流范式,标志着视觉推理从“依赖表征”迈向“语义直推”的关键跃迁,为轻量化、可解释性与泛化能力兼具的AI推理开辟了全新方向。

视觉推理离散词汇无监督范式革新免工具
2026-05-17
SePT:无监督自训练方法如何提升AI推理能力

SePT(Self-evolving Post-Training)是一种创新的自训练方法,无需外部奖励模型、验证器或教师信号,仅依托模型自身生成的答案进行迭代优化。该方法在数学推理任务中展现出显著效果,准确率提升达10个百分点,有力证实了无监督路径下推理能力可被有效增强。SePT突破了传统依赖人工标注或外部反馈的训练范式,为大语言模型的自主演进提供了新思路。

SePT自训练推理提升数学推理无监督
2026-04-23
DINOv3:引领视觉模型领域的开源创新之路

DINOv3 是一款开源的视觉大模型,在图像表征学习领域实现了重要突破。该模型采用无监督训练方式,无需人工标注数据即可完成高效学习,在多个视觉任务中性能达到最先进水平(SOTA)。其主干网络能够生成高质量的高分辨率图像特征,显著提升了细粒度识别与定位能力。得益于这一特性,DINOv3 可轻松支持轻量级适配器的训练,为模型在不同应用场景中的快速部署提供了便利。作为开源AI项目,DINOv3 推动了计算机视觉领域的开放研究与创新。

视觉模型开源AI无监督高分辨率轻量适配
2026-01-07
挑战行业规则的创业团队:人工智能与大模型的创新之路

一个由10人组成的创业团队正以全新模式挑战传统行业规则,所有成员均掌握人工智能技术,并依托大模型实现全程无监督学习。该团队摒弃依赖资本烧钱的发展路径,转而通过算法自主迭代与数据驱动决策,实现高效创业。在无需大量人工标注和外部监督的情况下,系统可自动识别市场规律并优化运营策略,显著降低试错成本与时间消耗。这一模式不仅提升了创新效率,也为人工智能赋能初创企业提供了可复制的实践范例。

创业团队人工智能大模型无监督高效创业
2025-12-19
搜索自博弈:深度搜索Agent的自我进化新范式

来自阿里巴巴夸克、北京大学和中山大学的研究人员提出了一种创新的自我博弈训练范式——搜索自博弈(Search Self-play,简称SSP),专为深度搜索Agent设计。该方法无需依赖外部监督信号,通过内部对抗与迭代优化,实现Agent在复杂环境中的自我进化。SSP突破了传统训练模式对标注数据和人类先验知识的依赖,展现出强大的自主学习能力,为无监督强化学习提供了新的技术路径。实验表明,该范式显著提升了Agent的推理深度与决策精度,具有广泛的应用前景。

搜索自博弈自我进化深度搜索训练范式无监督
2025-11-17