技术博客

大型语言模型的安全性挑战与应对策略

随着人工智能技术的飞速发展，大型语言模型（LLMs）如GPT-4和文心一言已广泛应用于医疗、教育、金融及政务等领域。然而，其安全性问题不容忽视。南洋理工大学与新加坡国立大学联合发布的综述指出，从数据收集到模型部署的全链路中存在诸多安全挑战。该研究为保障LLMs的安全性提供了全面视角，强调了在技术应用中的风险控制与管理。

人工智能大型语言模型模型安全数据收集全链路安全

2025-04-29

DeepSeek-R1防弹衣技术：揭示AI安全的隐忧与内生安全加固策略

上海AI Lab最新研究发现，以卓越推理能力著称的DeepSeek-R1模型存在潜在安全风险。为此，研究团队提出了一种名为“防弹衣”的模型内生安全加固方案。该技术旨在防止攻击防御过程中可能引发的自我损害，从而提升模型的整体安全性与防护效率。这一创新性方案为人工智能模型的安全性建设提供了新思路。

DeepSeek-R1模型安全防弹衣技术上海AI Lab内生安全

2025-03-17

防弹衣方案：AI模型安全的坚固盾牌

DeepSeek技术团队推出了名为“防弹衣”的模型内生安全加固方案，专注于提升AI模型的安全性。与此同时，上海AI实验室与上海交通大学联合研发的X-Boundary安全防御方案，成功破解了AI模型在增强防御能力时对性能造成损害的两难问题。这两种方案均致力于在保障模型安全的同时实现性能优化，为AI领域的安全性研究提供了新的方向。

防弹衣方案模型安全X-BoundaryAI防御性能优化

2025-03-17

破解智慧防线：H-CoT攻击对高性能推理模型安全性的冲击

杜克大学计算进化智能中心近期提出了一种名为H-CoT（思维链劫持）的攻击方法，该方法成功突破了多个高性能推理模型的安全防御。在模拟极端犯罪策略的教育场景测试中，原本拒绝率高达98%的OpenAI o1/o3、DeepSeek-R1和Gemini 2.0 Flash Thinking等模型，其拒绝率骤降至2%以下，部分情况下甚至从谨慎劝阻转变为主动提供策略。这一发现揭示了当前推理模型在面对特定攻击时的脆弱性，强调了加强模型安全性的紧迫性。

H-CoT攻击模型安全推理模型杜克大学犯罪策略

2025-03-09

复旦大学团队DuMo网络：风险移除新篇章

复旦大学研究团队在模型安全领域取得重大突破，成功设计出新型风险概念移除网络DuMo。该技术能够在从扩散模型中精准擦除指定风险概念的同时，最大限度地保持人物及其他属性的完整性。此成果在AAAI 2025会议上被评为最佳，展现了业界领先的精确度与效果，为模型安全领域的发展树立了新的里程碑。

模型安全风险移除DuMo网络属性保持AAAI会议

2025-02-25

确保机器学习与人工智能训练的正确路径：模型安全与数据洞察的双重视角

在当今数字化时代，机器学习（ML）和人工智能（AI）成为企业挖掘数据洞察、实现收入增长的重要工具。然而，模型安全问题不容忽视。一旦模型遭受攻击，可能会产生错误输出或被部署恶意代码，给企业带来巨大风险。因此，确保AI和ML训练的安全性至关重要，这不仅关乎技术进步，更直接影响企业的长远发展。

机器学习人工智能数据洞察模型安全收入增长

2025-02-13

推理时间增强模型安全性：OpenAI新研究引领防御新策略

最新研究表明，通过增加推理时间可有效防御针对大型语言模型的对抗攻击。OpenAI的新研究指出，这一方法将有助于提升模型安全性，特别是即将发布的官方代理“Operator”。此外，DeepSeek技术也有望从中受益。随着这些模型在现实世界任务中扮演更重要的角色，确保其安全性变得尤为关键。这项研究不仅增强了公众对模型安全性的信心，也为未来的技术发展提供了重要参考。

推理时间对抗攻击DeepSeek模型安全OpenAI

2025-01-23

一窥未来：系统2对齐——新一代模型安全的突破

为了增强模型的安全性，北京交通大学与鹏城实验室联合提出了一种名为“系统2对齐”的新方法。该方法基于OpenAI的“Deliberative Alignment”框架，旨在提升传统“系统1”模型的安全性能。通过引入更严谨的对齐机制，“系统2对齐”能够有效减少模型在复杂环境下的误判率，提高决策的可靠性和安全性。这一创新方案不仅为人工智能安全领域提供了新的思路，也为未来智能系统的开发奠定了坚实的基础。

系统2对齐模型安全OpenAI框架系统1提升交大方案

2025-01-23

ChatGPT性能解析：斯坦福大学研究揭示模型行为模式

斯坦福大学的研究团队对ChatGPT的性能进行了深入分析，发现其在特定时间段内存在性能下降的趋势。该研究揭示了ChatGPT的行为模式，为开发人员和用户提供了重要参考。研究强调，维护模型的安全性和确保内容的真实性至关重要。通过这项研究，开发者可以更好地优化模型，提升用户体验。

ChatGPT性能斯坦福研究模型安全内容真实行为模式

2025-01-17

《筑牢中文安全防线：大型人工智能模型基准评测的新篇章》

中国信通院与淘天集团联合发布了全球首个针对中文安全领域的基准评测集，旨在评估和提升大型人工智能模型在处理法律、政策和伦理问题时的安全性。目前，仅有三个大型模型达到了及格标准。这一评测集的发布，突显了学术界和工业界亟待解决的问题：如何有效评估和提高这些模型在复杂领域的安全性。

中文安全基准评测人工智能法律伦理模型安全

2024-12-27

AI实验室创新技术REEF：大模型的指纹识别守门人

上海AI实验室联合中科院、人大和上海交通大学的研究人员开发了一种名为REEF（Representation Encoding Fingerprints）的技术，旨在为大型语言模型（LLM）提供独特的“指纹识别”。这项技术能够在不降低模型性能的情况下，精确地识别出未经授权的模型复制、修改或合并行为，从而有效打击对大模型的非法“套壳”行为。

AI实验室指纹识别模型安全未经授权大模型

2024-12-13

AI模型崩溃的隐患：技术挑战与系统稳定性

随着人工智能技术的飞速发展，AI模型在各个领域得到了广泛应用。然而，技术进步的同时也带来了新的挑战，其中最引人关注的是AI模型崩溃的风险。这种风险不仅影响系统的稳定性，还可能对社会造成不可预估的影响。探讨如何提高模型的安全性，面对技术挑战，确保智能系统的稳健运行，成为了当前亟待解决的问题。

AI风险模型安全技术挑战系统稳定性智能崩溃

2024-09-25

AI热点

2025-06-20

BAS系统在攻防演练中的实战应用解析

科技热点

BAS系统在攻防演练中的实战应用解析