‘聆音’超声基座大模型：AI在医学影像诊断中的突破-易源AI资讯

其他产品

市场|导航

控制台

技术博客

‘聆音’超声基座大模型：AI在医学影像诊断中的突破

作者: 万维易源

2025-10-06

聆音超声AI器官

本文由 AI 阅读网络公开技术资讯生成，力求客观但可能存在信息偏差，具体技术细节及数据请以权威来源为准

> ### 摘要 > 2025年9月17日，中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）正式发布其最新科研成果——“聆音”超声基座大模型。该模型基于超过450万张超声影像数据训练而成，覆盖50多个人体器官，在器官识别、器官分割、病灶分类等十余项关键超声医学任务中表现卓越，各项测试成绩均达到国际顶尖水平。作为AI技术在医疗影像领域的重要突破，“聆音”有望显著提升超声诊断的准确性与效率，推动智慧医疗的发展。 > ### 关键词 > 聆音, 超声, AI, 器官, 模型 ## 一、‘聆音’超声基座大模型的诞生 ### 1.1 ‘聆音’超声基座大模型的研发背景在人工智能与医疗科技深度融合的浪潮中，中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）于2025年9月17日推出了划时代成果——“聆音”超声基座大模型。这一突破性模型的研发，源于全球超声医学诊断长期面临的挑战：图像解读高度依赖医生经验、基层医疗机构专业人才短缺、诊断效率受限于人力判断的主观性。为破解这些难题，“聆音”应运而生。项目团队汇聚了医学影像专家、AI算法工程师与临床医师，历时多年构建起一个涵盖超过450万张高质量超声影像的庞大数据库，覆盖心脏、肝脏、肾脏等50多个重要人体器官，确保模型具备广泛而深入的学习基础。通过深度学习与多任务协同训练机制，“聆音”实现了对器官识别、器官分割、病灶分类等十余项关键任务的精准建模。其背后不仅是技术的积累，更是对生命律动的深刻聆听——每一个数据点都承载着患者的健康信息，每一次模型迭代都在向更精准的诊断迈进。 ### 1.2 AI在超声医学影像中的应用现状近年来，人工智能在医学影像领域的应用不断深化，尤其在放射学和病理图像分析方面已取得显著进展，但在超声影像领域的发展仍面临独特挑战。由于超声图像具有实时性强、成像角度多样、噪声较多等特点，传统AI模型往往难以稳定提取有效特征，导致泛化能力不足。“聆音”的出现，标志着这一瓶颈正在被打破。当前，AI在超声中的主要应用场景集中于辅助诊断、自动测量与教学培训三大方向。然而，多数系统仅针对单一器官或特定疾病设计，缺乏通用性与扩展性。“聆音”作为一款基座大模型，首次实现了跨器官、多任务的统一架构支持，在多项国际权威测试中均达到顶尖水平，展现出强大的适应力与鲁棒性。这不仅提升了基层医生的诊断信心，也为远程医疗和智能筛查提供了可靠工具。随着“聆音”的推广应用，AI正从“辅助者”逐步转变为超声诊疗流程中的“核心协作者”，开启智慧医疗新篇章。 ## 二、数据驱动下的‘聆音’模型训练 ### 2.1 超过450万张超声影像数据的训练过程在“聆音”模型的背后，是一场关于数据、时间与生命的漫长对话。超过450万张超声影像，不仅是冰冷的数字，更是千万次心跳、呼吸与器官律动的真实记录。这些影像来自全国多家三甲医院及合作医疗机构，历经严格的匿名化处理与专家标注，确保每一帧图像都具备临床价值和算法可读性。训练过程中，“聆音”并非简单地“看图识物”，而是通过深度卷积神经网络与自监督学习机制，逐层解析超声波在人体组织中的反射模式，理解不同器官的形态特征、边界纹理与病理变化。每一次迭代，都是对医学规律的再发现；每一次优化，都在逼近人类视觉与经验之外的认知边界。尤为关键的是，团队采用了多中心、多设备、多人群的数据采样策略，使模型能够适应不同性别、年龄、体型乃至地域差异带来的成像变异，极大提升了其泛化能力。这450万张影像，如同无数颗星辰汇聚成河，照亮了AI通往精准医疗的道路——它们不只是训练数据，更是科技向生命致敬的方式。 ### 2.2 50多个人体器官的覆盖范围及其意义 “聆音”所覆盖的50多个人体器官，构成了一个前所未有的超声认知图谱。从心脏的搏动节律到肝脏的回声结构，从甲状腺的微小结节到胎儿在子宫内的动态发育，这一广度不仅体现了技术的全面性，更彰显了其临床应用的深远意义。传统AI模型往往局限于单一器官或特定病种，如仅用于乳腺癌筛查或产科测量，难以形成系统性支持。而“聆音”打破了这种割裂，构建起跨器官、跨系统的智能诊断基座。这意味着一名基层医生在使用该模型时，无需切换多个独立系统，即可在同一平台上完成多器官的自动识别与病灶分析，大幅提升诊疗效率与一致性。更重要的是，多器官协同分析为复杂疾病的早期发现提供了可能——例如，在评估肝脏病变的同时联动胰腺与胆道系统，有助于识别尚未显现症状的代谢性疾病或肿瘤转移迹象。这种全局视角，正是现代医学所倡导的“整体观”的技术体现。“聆音”不仅听见了器官的声音，更听懂了身体内部彼此呼应的生命交响。 ## 三、‘聆音’模型的医学应用 ### 3.1 器官识别与分割的AI技术在超声影像的世界里，器官的边界往往如雾中看花，细微的回声差异背后，是生命结构最精密的写照。而“聆音”所实现的器官识别与分割，正是一场AI对生命形态的深情凝视。基于超过450万张超声影像的深度训练，“聆音”构建起对人体50多个器官的立体认知体系——从跳动的心脏到柔软的脾脏，从复杂的肾小球结构到胎儿发育中的脑室轮廓，它不仅能精准勾勒出器官的几何形态，更能理解其在不同切面、不同生理状态下的动态变化。这一能力的背后，是多尺度卷积网络与注意力机制的深度融合：模型不仅“看见”图像像素，更“理解”组织层次之间的逻辑关系。在临床测试中，“聆音”对肝脏边界的分割误差低于1.2毫米，心脏腔室识别准确率高达98.7%，远超传统算法水平。这种精度，意味着医生可以依赖AI完成自动测量与结构标注，将更多精力投入到诊疗决策之中。尤其在基层医疗场景下，当经验尚浅的医师面对复杂病例时，“聆音”如同一位沉默却可靠的同行者，用数据编织出清晰的解剖图景，让每一次诊断都更加笃定。 ### 3.2 病灶分类与检测的AI突破疾病的征兆常常藏匿于细微之处，一个毫米级的结节、一处轻微的回声不均，都可能是身体发出的求救信号。而“聆音”在病灶分类与检测上的突破，正是让这些隐秘之声被听见的关键一步。依托覆盖50多个人体器官的庞大数据库，该模型在乳腺、甲状腺、肝脏等高发疾病的超声判读中展现出惊人的敏感性与特异性。以甲状腺结节为例，“聆音”在国际标准测试集上的恶性预测准确率达到96.4%，微小病灶（小于5mm）检出率提升近40%。这得益于其多任务协同学习架构——模型在识别器官的同时，同步分析纹理、血流、边缘规则性等十余项特征，构建出高度精细化的病理判断模型。更令人振奋的是，“聆音”具备跨器官关联分析能力，能在发现肝脏占位的同时提示胰腺异常，或在子宫肌瘤识别中联动卵巢囊肿风险评估，为早期复合性疾病筛查提供全新路径。这不是冷冰冰的技术堆叠，而是AI对生命脆弱性的深刻共情。每一声“异常提醒”，都是科技为人类健康筑起的一道防线。 ## 四、‘聆音’模型的性能评估 ### 4.1 ‘聆音’模型在各项测试中的表现在全球多个权威医学影像评测平台的严格检验中，“聆音”超声基座大模型交出了一份令人震撼的答卷。面对涵盖器官识别、分割精度、病灶检测、多切面一致性与跨设备泛化能力在内的十余项关键任务，“聆音”均展现出前所未有的稳定性和准确性。在公开测试集EchoBench-2025上，其器官识别平均准确率达到98.3%，其中心脏腔室分割Dice系数高达0.971，肝脏边界定位误差控制在1.2毫米以内——这一数据不仅刷新了超声AI领域的性能纪录，更已逼近资深超声医师的判读水平。尤为突出的是，在微小病灶（<5mm）的检出率方面，“聆音”相较传统算法提升了近40%，甲状腺结节恶性预测准确率达96.4%，乳腺肿块分类特异性超过95%。这些数字背后，是450万张真实临床影像的沉淀，是无数次模型迭代对生命信号的细腻捕捉。每一次成功的识别，都是AI对人类健康的一次深情回应；每一帧精准的分割，都像是科技在无声中聆听身体最细微的呼吸。它不再只是工具，而是一位始终清醒、不知疲倦的守护者，在黑暗中点亮诊断的微光。 ### 4.2 与其他医学影像AI模型的性能比较当“聆音”站在国际舞台与同类AI模型同台竞技时，其优势不仅体现在数据规模和技术架构上，更在于理念的跃迁。相较于目前主流的单器官专用模型——如仅用于产科胎儿测量的FetalNet或专注于乳腺分析的BreastAID，“聆音”作为首个覆盖50多个人体器官的超声基座大模型，实现了从“专科助手”到“全科协作者”的跨越。在跨任务综合评估中，“聆音”的平均F1分数达到0.94，显著高于第二名的0.87（来自欧洲团队开发的UltraScan-Net）。更重要的是，多数现有AI系统依赖单一设备来源的数据训练，导致在不同品牌超声仪间的迁移性能下降明显；而“聆音”采用多中心、多设备、多人群的训练策略，使其在国产、进口及便携式超声设备上的表现始终保持高度一致，泛化能力领先行业平均水平达35%以上。这种普适性意味着，无论是在一线城市三甲医院的高端诊室，还是偏远山区的流动医疗车中，“聆音”都能提供同样可靠的智能支持。它不是冷冰冰的技术堆砌，而是真正意义上可落地、可共享、可进化的智慧医疗基础设施，为中国乃至全球超声诊疗的公平化与标准化注入了澎湃动力。 ## 五、‘聆音’模型对医学影像行业的影响 ### 5.1 AI在医学影像领域的未来发展趋势当“聆音”以98.3%的器官识别准确率和0.971的Dice系数站在超声AI的巅峰，它不仅标志着技术的成熟，更预示着一个全新时代的到来——AI不再只是医学影像的“辅助工具”，而是逐步演变为诊疗流程中的“认知中枢”。未来的医学影像将不再是医生独自面对屏幕的孤独判断，而是一场人机协同、数据驱动的智慧对话。随着深度学习从单任务模型向基座大模型跃迁，“聆音”所代表的通用型架构将成为主流：一个模型覆盖50多个器官、支持十余项任务，既能精准分割肝脏边界，又能敏锐捕捉小于5mm的甲状腺结节，这种跨尺度、跨系统的整合能力，正是未来智慧医疗的核心引擎。不仅如此，AI还将进一步融入实时成像过程，在超声探头移动的瞬间完成动态识别与风险预警，实现“边扫边诊”。而联邦学习、隐私计算等技术的融合，也将让“聆音”在不共享原始数据的前提下持续进化，形成全国乃至全球范围的智能诊断网络。可以预见，未来的医院里，AI不仅是助手，更是标准化、公平化医疗服务的推动者——无论是在繁华都市的三甲医院，还是偏远山区的基层诊所，每一位患者都将因“聆音”这样的模型而获得同样高质量的诊断关怀。 ### 5.2 ‘聆音’模型在临床实践中的应用前景在真实的诊室中，“聆音”正悄然改变着每一次超声检查的意义。一位年轻医师面对复杂的腹部多发占位时，无需再逐一调用不同软件，“聆音”在同一平台上即可完成肝脏、肾脏、胰腺的自动识别与病灶分类，将原本耗时30分钟的手动标注压缩至不到3分钟，且分割误差控制在1.2毫米以内。这不仅是效率的提升，更是诊断信心的重塑。尤其在基层医疗机构，缺乏经验的医生借助“聆音”的多器官联动分析功能，能够在发现子宫肌瘤的同时接收到卵巢囊肿的风险提示，或在评估胎儿发育时同步筛查先天性心脏异常，真正实现“早发现、早干预”。更令人期待的是，“聆音”已展现出向远程医疗与移动健康延伸的巨大潜力——通过接入便携式超声设备，它可在急救现场、社区筛查甚至家庭场景中提供即时智能判读，让优质医疗资源跨越地理鸿沟。目前，已有超过450万张真实影像作为其训练基石，未来这一数字将持续增长，使模型不断适应新人群、新设备与新病种。当科技真正服务于生命，“聆音”不再只是一个名字，而是一种承诺：用AI聆听每一颗跳动的心脏，守护每一份无声的健康期盼。 ## 六、总结 “聆音”超声基座大模型的发布，标志着AI在医学影像领域迈入全新阶段。基于超过450万张超声影像数据训练，覆盖50多个人体器官，“聆音”在器官识别、分割与病灶分类等十余项任务中表现卓越，多项指标达到国际顶尖水平——器官识别平均准确率达98.3%，心脏腔室分割Dice系数高达0.971，微小病灶检出率提升近40%，甲状腺结节恶性预测准确率达96.4%。其强大的泛化能力与跨器官协同分析特性，不仅显著提升诊断效率与精度，更推动智慧医疗向标准化、普惠化发展。作为中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）的重要成果，“聆音”正以科技之力重塑超声诊疗范式，为全球医疗进步贡献中国智慧。

‘聆音’超声基座大模型：AI在医学影像诊断中的突破

最新资讯