春节期间,图像编辑技术迎来重要突破:小红书平台正式推出全新开源图像编辑技术,在多项基准测试中达到当前最高水平(SOTA),显著提升编辑精度与语义一致性。该技术聚焦AI生成内容的可控性与实用性,为开发者与创作者提供高效、透明、可复现的工具链,迅速成为AI图像生成领域极具竞争力的新力量。
在提升笔记效率的探索中,Obsidian结合AI技术提供了一种全新的解决方案。通过AI赋能,Obsidian能够一键生成Canvas和小红书风格的笔记,显著简化了知识整理与视觉化表达的过程。相比传统笔记工具功能单一、需手动绘图与排版的局限,该组合支持自动构建知识图谱与思维导图,大幅提升工作与学习中的信息组织效率,推动个人知识管理体系迈向智能化。
小红书技术团队近日推出了一项名为CrossVid的全新基准测试,旨在全面评估多模态大型语言模型(MLLMs)在跨视频推理任务中的表现。该基准测试通过设计一系列综合性题目,有效挑战模型在复杂视频内容理解、时序逻辑推理及跨片段语义关联等方面的能力,推动多模态AI技术的发展。目前,CrossVid的全部测试代码与数据集均已开源,向全球研究者和开发者开放使用,助力学术界与工业界共同提升视频理解模型的性能与应用水平。
小红书推荐算法团队在2025年RecSys会议上提出了一种创新的视频时长预估模型EGMN,该方法基于指数-高斯先验分布,有效提升了视频消费时长的预测精度。凭借其在真实业务场景中的显著效果与理论创新性,该论文荣获最佳论文提名,展现了小红书在推荐系统前沿研究中的技术实力。
2024年上半年,小红书技术团队正式推出DeepEyesV2,标志着其在多模态智能领域的重大突破。该技术不仅实现了从“看图思考”到“工具协同”的演进,更在图像理解能力上实现了质的飞跃。通过深度融合视觉识别与外部工具调用能力,DeepEyesV2能够主动分析图像内容并联动相关服务完成复杂任务,显著提升了内容理解与用户交互的智能化水平。这一进展体现了小红书在AI驱动内容生态建设方面的前瞻性布局,也为多模态人工智能的发展提供了新的实践路径。
在NIPS 2025会议上,小红书智创AIGC团队提出了一种名为InstanceAssemble的新算法,该技术在文本生成图像扩散模型领域实现了重要突破。通过引入布局控制(Layout-to-Image, L2I)机制,InstanceAssemble显著提升了图像生成过程中对物体位置、比例与空间关系的精确控制能力,解决了传统方法中语义与布局错位的问题。该方法不仅增强了生成图像的结构合理性,也为复杂场景的精准构建提供了新思路,推动了AIGC在内容创作领域的应用边界。
在NIPS2025会议上,小红书智创AIGC团队提出了一种名为InstanceAssemble的新算法,专注于图像的可控生成技术。该算法通过精细化控制图像元素的布局与组合,显著提升了图像生成的质量与效率,尤其适用于平台用户在文字发布过程中对高质量配图的即时需求。InstanceAssemble融合了语义理解与实例级编辑能力,实现了更精准的内容生成,在AIGC领域展现出强大的应用潜力。目前,该技术已逐步应用于小红书的内容创作生态,助力用户提升视觉表达效果。




