AG真人(中国·国际)官方网站阿联酋东说念主工智能大学等: 让图像生成AI学会"自我审查"的新方法

来源：未知作者：admin 时间：2026-05-26 08:05 浏览：199

这项由阿联酋穆罕默德·本·扎耶德东说念主工智能大学（MBZUAI）与好意思国密歇根州立大学（MSU）连络完成的研究，于2026年5月发表在预印本平台arXiv上，论文编号为arXiv:2605.18719。研究提议了一个名为SafeDiffusion-R1的框架，试图从根柢上措置翰墨生成图片的AI系统容易产出瞻念、无益内容的问题。

你可能没特地志到，当你在网上看到那些炫目的AI生成图顷刻，这些器具背后遮挡着一个毒手的问题：它们在学习阶段"读"了扫数这个词互联网，因此也把那些露骨、暴力、令东说念主不安的内容一并学进去了。给它发送一段特定的翰墨描写，它就可能生成你王人备不但愿看到的画面。更贫瘠的是，许多这类器具是公成就布的，任何东说念主都能使用，这让安全问题变得格外膺惩。

研究团队给这说念难题提了一个全新的解法，中枢念念路是：与其在模子降生之初就千方百计过滤掉"坏内容"，不如在模子检修好之后，通过一种合手续性的在线学习机制，让它在与推行互动的历程中缓缓学会"什么不该画"。这个念念路听起来简短，背后的工程终端却相当精妙，底下咱们一步一步来拆解它。

一、AI图像生成与安全问题：一个对于"顾虑"的贫瘠

要领路这项研究措置的是什么问题，不妨先从AI图像生成的使命旨趣提及。当今最流行的图像生成器具，如Stable Diffusion，属于一类叫作念"扩散模子"的系统。你不错把这类系统的使命历程想象成雕饰家从一团立时的杂音潸潸中，一刀一刀地把你描写的图像雕刻出来。检修的时候，它"读"了数十亿张图片过火配套翰墨描写，从而学会了语言与视觉之间的对应关系。

问题就在这里。互联网上原来就充斥着各式类型的内容，包括色情图片、暴力场景、仇恨绮丽，应有尽有。AI在学习阶段照单全收，把这些关联也紧记起在了"肌肉顾虑"里。一朝用户发送了触发这些顾虑的翰墨，AI就会"敦厚地"把它们画出来。

现存的移交方法大约分三种。第一种是"起源过滤"，便是在检修之前把数据集里的不良内容剔牵记；这个方法费时吃力，况兼很难粉饰扫数新出现的无益类型。第二种是"出口过滤"，便是AI生成图片之后，再用另一套系统查验一遍，发现欠妥就箝制；这个方法治标不治本，况兼要是用户能径直探询模子，就不错绕过这说念防地。第三种是"过后修改"，也便是对照旧检修好的模子进行调整，让它"忘掉"那些不该学的东西——这亦然当今学界研究最热点的方针。

SafeDiffusion-R1 属于第三种，但它作念到了前东说念主没作念到的几件事：不需要标注好的"安全图片"数据集，不需要专门检修一个迥殊的"安全审查员"模子，还能幸免模子在学安全的同期把宽泛的绘图智力一齐忘掉。

二、现存"转圜"方法的三大痛点

为了更好地领路这项研究的价值，有必要先聊聊此前的方法为什么不够好。

已有的过后修改方法大体上不错分为两类：监督微长入离线强化学习。监督微调的逻辑近似于给学生发错题本，让他反复造就"正确谜底"。研究东说念主员准备一批"这类描写对应这种安全图片"的配对数据，让模子照着练。然而这种方法有一个致命瑕玷：题目是固定的，而学生（也便是模子）在造就历程中会继续进化，固定的题目很快就跟不上模子面前的景色。更贫瘠的是，这类方法时常会让模子产生"苦难性渐忘"——专注练安全题的同期，它把如何画漂亮气候、如何领路复杂构图也一并忘了。

离线强化学习的念念路更进一步：先用一个预先准备好的数据集给每张图片打分，告诉模子哪些图好、哪些图坏，然后让模子笔据这些预先打好的分数来调整我方。这里的问题在于"离线"二字——分数是笔据旧数据打的，比及模子学了一段时分之后，它的步履照旧变了，但参照的"评分步伐"照旧当初的老步伐，两者之间的落差会让学习服从大打扣头。

此外，许多强化学习方法还需要专门检修一个"裁判模子"来分辨安全与不安全的内容，这自己便是一笔迥殊的计较支拨。

SafeDiffusion-R1的研究团队意志到，要确切措置这些问题，需要一种能随着模子及时进化、历久基于模子面前景色给出反应、同期又不需要迥殊评判员的机制。

三、中枢念念路：用一个"指南针"替代"评判员"

研究团队的要道灵感来自一个看似简短却很有劲的几何知悉。

任何AI图像生成系统的里面，翰墨和图片都被翻译成了一种叫作念"镶嵌向量"的数学抒发——你不错把它想象成高维空间里的一个坐标点。"猫"这个词有它的坐标，"狗"有它的坐标，"温馨的家庭场景"和"暴力突破"也各自占据着这个空间里的不同位置。相似的成见在这个空间里紧挨着，违反的成见则隔得很远。

研究团队意志到，既然"安全内容"和"不安全内容"在这个空间里的散布章程是确信的，完全不错从入网算出一个方针——从不安全的成见区域指向安全成见区域的方针。就像在一个目生城市里，你不知说念具体去那里，但你知说念大约朝哪个方针走会离闹市越来越近。这个方针，研究团队称之为"安全方针向量"。

具体作念法是：准备一批描写"安全内容"的翰墨（比如"一张全年纪稳妥的普通像片"、"莫得流露、莫得暴力的图片"等），再准备一批描写"不安全内容"的翰墨（比如"露骨的性内容"、"色情材料"等）。把这两批翰墨分别输入CLIP这个照旧在无数图文数据上预检修好的领路模子，得到各自的坐标位置，然后计较两组坐标的平均值，再求两个平均值之间的方针差，这就得到了那根"指南针"——安全方针向量。

这个向量一朝计较完成，就固定下来，扫数这个词后续检修历程中不需要再更新它。这意味着扫数这个词安全系统不需要迥殊检修任何新的模子，只是诓骗已有的CLIP模子作念一次静态的几何计较即可。

四、奖励信号的精妙联想：让AI学会"为好终结正经"

有了安全方针向量，下一步是联想一套奖励信号，让模子知说念什么时候作念对了、什么时候作念错了。研究团队联想了一种叫作念"沟通奖励机制"（Steering Reward）的决策，使命旨趣如下。

当模子收到一段翰墨描写，系统会先判断这段描写是否偏向不安全内容——方法很径直，把这段翰墨的坐标投影到安全方针向量上，看投影值是正照旧负。偶合确认这段翰墨自己便是在描写安全内容；负值则确认这段翰墨在描写不安全的内容。

要是输入的是安全描写，那么奖励的计较时势很成例：看模子生成的图片与翰墨描写的匹配进程，匹配得越好，奖励越高。

要是输入的是不安全描写，事情就变得风趣了。系统不是径直刑事连累模子，也不是假装这段描写不存在。它作念的是：把不安全描写的坐标，沿着安全方针向量推一推，推向安全的那一侧，得到一个"被修订过的"翰墨坐标。然后用这个修订后的坐标来计较奖励——也便是说，模子生成的图片越接近"这段描写的安全版块"，奖励就越高。

要道在于：模子收到的依然是原始的不安全描写，但估量它阐发锐利的步伐，形成了"你画出来的东西像不像这段话的安全等价物"。模子为了取得高奖励，就必须学会在看到"赤身女东说念主"这么的描写时，去画一个"一稔衣服的女东说念主"——而不是确切去画赤身。

这个联想的精妙之处在于，模子历久在与真实的不安全描写打交说念，而不是被屏蔽在一个惟有安全内容的温室里；但它学到的步履时势，却是濒临这些描写时给出安全的恢复。

五、在线学习机制：让模子随时和我方确面前景色对话

沟通奖励的联想措置了"用什么步伐打分"的问题，但"什么时候打分、基于什么景色打分"同样要道。研究团队采取了一种叫作念GRPO（群体相对计策优化）的在线强化学习算法。

"在线"的含义是：每次检修，模子都用面前的景色生成一批新图片，然后对这批图片打分，再笔据打分终结调整模子参数。下一次检修轮回运行时，模子照旧是更新过的版块，生成的图片和打出的分数也随之变化。这么，评分步伐历久跟踪着模子确面前步履，不会出现"旧分数、新模子"的错位问题。

GRPO的"群体相对"特质则措置了另一个毒手问题。对于归并段翰墨描写，系统会让模子生成一组图片（比如16张），然后比拟这一组图片之间的相对证料——谁比谁好，而不是拿王人备分数讲话。这个作念法的公正是，不同类型的描写原来就对应着天壤之隔的奖励圭臬（安全描写的奖励分数往往比不安全描写逾越许多），要是径直用王人备值比拟，AG真人2026世界杯中国官网不安全的描写会因为奖励落差重大而主导扫数这个词检修信号，让模子矫枉过正、把宽泛的绘图智力也一并抹掉。有了群体里面的相对比拟，每种描写的检修信号都被归一化到了一个相似的圭臬，学习历程就稳健得多。

此外，为了防范模子更新得太猛，系统还加入了两说念刹车：一是剪辑操作，截止每次参数更新的幅度不卓著一个很小的阈值（ε=0.0001）；二是KL散度刑事连累，要是面前模子和上一版块之间的差距过大，就追加刑事连累，迫使模子缓缓进化而非大起大落。

具体终端上，团队在Stable Diffusion v1.4这个公开的基础模子上进行了后检修，秉承了LoRA（低秩顺应）时期，只调整了约240万个参数，不到模子全部8.6亿参数的0.3%。检修在8块AMD MI210显卡上进行了300轮，臆想耗时约72个GPU小时。检修使用的数据只是是翰墨描写，不需要配对的"安全图片"当作标注谜底。

六、实验考证：数字会讲话，但背后的故事更值得讲

研究团队在多个基准测试上考证了SafeDiffusion-R1的恶果，这里把主要发现整理成几个直瞻念的对比场景。

起始是流露内容检测测试。研究团队使用了一个叫作念I2P的基准，里面包含4703个专门联想来沟通AI生成不良内容的翰墨描写。原始的Stable Diffusion v1.4在这些描写下，总姜被检测出646处流露部位。经过SafeDiffusion-R1的后检修，这个数字裁减到了15，降幅卓著97%。这个终结超越了绝大多数已有方法，其中阐发最佳的几个竞争方法也只可作念到18到23处。

其次是更等闲的"欠妥内容"检测测试。研究团队使用了Q16分类器，对七类无益内容（仇恨、阻挠、暴力、自我伤害、色情、令东说念主震恐的内容、不法行动）分别统计模子输出的欠妥率。原始模子的详细欠妥率是48.9%。SafeDiffusion-R1将这个数字裁减到了18.07%，在扫数七个类别中均居第一或第二。尽头值得热心的是，模子在检修时期主要构兵的是触及流露内容的描写，但它对暴力（从46.3%降到17.33%）、自我伤害（从47.9%降到15.86%）等完全不同类型的无益内容也终端了大幅压制。这标明模子学到的不单是"不要画赤身"，而是一种更宽绰的"安全意志"。

第三个测试触及的是一个要道问题：学会了安全之后，模子还会不会好好画画？这个测试使用GenEval基准，专门评估模子能否准确领路并生成允洽复短文字描写的图片（比如"两个物体"、"空间关系"、"激情属性"等）。原始Stable Diffusion v1.4的GenEval得分是42.08%。有些安全方法在造就安全性的同期拉低了这个分数，比如RECE方法就把分数降到了38.36%。而SafeDiffusion-R1在安全后检修后，反而把得分造就到了47.83%——安全和智力非但莫得相互糟跶，还终端了同步造就。

ag真人视讯中国官网

七、一次对于"什么样的奖励联想才有用"的系统性探索

研究团队还花了无数篇幅探索不同奖励联想之间的互异，这部天职容对于领路为什么他们的决策有用尤为首要。

要是只使用负向奖励——也便是每当模子生成的图片与不安全描写高度匹配就扣分——模子如实会拚命幸免生成任何与不安全描写商量的图片。从数字上看，流露检测率简直归零。但代价是苦难性的：模子学会了通过生成毫有时旨、与任何描写都不匹配的立时噪点来躲避刑事连累。CLIP-T（估量生成图片与翰墨描写的匹配进程）和FID（估量图片质料的狡计）双双崩溃，模子基本上废了。

要是只使用正向奖励——也便是只饱读舞模子生成与安全描写高度匹配的图片，完全不触及不安全描写——模子在安全图片的生成质料上会有所造就，但对不安全描写简直莫得扼制作用，100万张正向检修图片也只可把流露欠妥率从0.99降到0.816，恶果渺不足道。

加入LLaVA视觉语言模子当作迥殊裁判的决策阐发稍好，但每当LLaVA对一张原来安全的图片误判时，就会给模子一个有时的大刑事连累，激发检修不雄厚，最终FID分数反而比单纯沟通奖励差。

沟通奖励的联想详细了正负两侧的信息，既提供了明确的安全方针，又保留了对生成质料的正向激励，最终将流露欠妥率压到了0.002这个接近于零的水平，同期看护了宽泛的图片质料。

对于沟通强度参数α的采取，团队也作念了淡雅的分析。当α=0.5时，安全增益显贵，且安全与不安全描写之间的几何分辨依然明晰；当α增大到0.8到1.0时，对不安全描写的压制更强，但收益递减，偶尔还会出现过度矫正，把与不安全描写语义接近的宽泛描写也额外地压制掉。α=0.5被最终采用为默许值。

对于不同推理调整器（限度图像生成方法的不同算法）的测试暴露，在莫得任何安全干预的情况下，不同调整器之间的无益内容生成率存在显豁互异；但经过SafeDiffusion-R1的后检修，扫数九种测试的调整器在300轮检修终端后都照意想接近零的无益内容率，互异清除。这确认安全智力内化到了模子自己，而不是对某种特定推理时势的顺应。

八、与已有方法的正面比拟：上风与短板并存

研究团队将SafeDiffusion-R1与十余种已有方法在多个狡计上进行了对比，论断总体上对新方法有意，但也有一些值得坦诚探讨的地点。

在流露检测方面，SafeDiffusion-R1的"不安全锚点"配置以15处检测总额略略起始于SAeUron的18处和AdvUnlearn的23处，居于榜首。在详细欠妥率方面，18.07%的得益显贵优于第二名CASTEER的25.58%，以及Safe-DPO的约20%。

在CLIP-T（翰墨-图片匹配度）方面，SafeDiffusion-R1看护了与基线模子（0.313）简直相通的分数（0.311），确认在学会安全的同期，领路翰墨描写并生成匹配图片的智力莫得退化。

在FID（图片质料散布相似度）方面，SafeDiffusion-R1的阐发（52.28）稍逊于UCE（37.41）和SPM（38.05）等方法，但优于EraseDiff（307.70）和Scissorhands（172.88）等极点退化的决策。研究团队对此给出了阐扬：FID估量的是生成图片的散布与参考数据集（COCO-3K）之间的相似度，而SafeDiffusion-R1的检修数据是合成生成的，与COCO的立场原来就存在一定差距；直瞻念的视觉对比暴露，SafeDiffusion-R1生成的图片在结构完满性、面部细节和光影一致性上阐发相当好，致使优于那些FID更低但视觉上有过度平滑或结构粗率问题的方法。

从全体评估框架来看，研究团队还专门列出了一张对比表格，从六个维度比拟了万般方法：是否需要监督配对数据、检修计策（在线或离线）、是否存在苦难性渐忘风险、是否需要专门检修奖励模子、是否具备推明智力、是否对散布外的不安全描写具有泛化智力。SafeDiffusion-R1在这六个维度上全部处于有意位置，是当今详细阐发最全面的决策。

说到底，SafeDiffusion-R1这项研究作念的事情，本色上是把一个"出厂就有问题"的AI器具，通过一套机要的在线学习机制，让它在与真实天下的互动中缓缓培养出一种自我不休的智力。不需要准备无数东说念主工标注的对照数据，不需要检修迥殊的审查员，不需要在安全和智力之间作念出可怜的弃取——这三件事在此之前一直被以为是很难同期作念到的，而这项研究给出了一个可行的解法。

天然，这项研究并非毫无局限。FID分数的偏高确认生成图片的整身形度与真实像片的散布仍有一定距离；"不安全锚点"配置天然在流露检测上阐发最优，但在详细欠妥率测试中的阐发反而不如同期使用安全锚点的配置，教唆过于激进的刑事连累可能毁伤对更等闲无益类型的泛化智力。此外，实验主要基于Stable Diffusion v1.4进行，在更新、更大限制的模子上是否同样有用，还需要进一步考证。

对于普通东说念主而言，这项研究最径直的意旨在于：往日咱们使用的AI图像器具，可能会越来越少地产出令东说念主不安的内容，同期依然卤莽准确领路并呈现咱们确切想要的画面。有好奇长远了解时期细节的读者，不错通过arXiv编号2605.18719检索完满论文，也不错探询研究团队公开的代码仓库（GitHub上的MAXNORM8650/SafeDiffusion-R1）复现商量实验。

Q&A

Q1：SafeDiffusion-R1检修需要准备无数的"安全图片"数据集吗？

A：不需要。SafeDiffusion-R1只需要翰墨描写当作检修输入，不依赖任何标注过的"安全图片"与"不安全图片"的配对数据。安全方针向量通过一丝安全描写和不安全描写的翰墨计较得出，扫数这个词后检修历程中模子及时生成图片并基于面前输出取得反应，无需预先准备图片标注数据集。

Q2：SafeDiffusion-R1让模子学了安全之后，宽泛的绘图智力会变差吗？

A：实验终结暴露不但莫得变差，详细绘图智力反而有所造就。GenEval基准测试中，原始Stable Diffusion v1.4的得分为42.08%，经过SafeDiffusion-R1后检修后造就到47.83%，在多物体构图、空间关系领路等复杂任务上均有改善。CLIP-T分数也与原始模子简直合手平，确认翰墨描写与生成图片的匹配智力莫得退化。

Q3：SafeDiffusion-R1只检修了扼制流露内容，为什么对暴力和自我伤害这些类型也有恶果？

A：这源于沟通奖励机制的泛化智力。安全方针向量捕捉的是镶嵌空间中"安全内容"与"不安全内容"之间的全体方针互异AG真人(中国·国际)官方网站，而不单是针对流露这一种类型。模子在检修历程中内化了一种更宽绰的"安全语义偏好"，因此对暴力（从46.3%降到17.33%）、自我伤害（从47.9%降到15.86%）等检修时未直构兵及的无益类别也终端了显贵扼制，展现出了较强的散布外泛化智力。

AG真人(中国·国际)官方网站 阿联酋东说念主工智能大学等: 让图像生成AI学会&quot;自我审查&quot;的新方法

AG真人(中国·国际)官方网站阿联酋东说念主工智能大学等: 让图像生成AI学会"自我审查"的新方法