中意资讯网 中意资讯网

当前位置: 首页 » 前沿资讯 »

西北大学提出双层优化框架,增强模型对不确定分布风险的鲁棒性

基于大模型在实际应用中的快速普及,人们逐渐发现这些模型可能会生成有害、带有偏见或不准确的内容。用户可能会要求模型生成带有仇恨、误导或暴力的内容,甚至通过对模型的“越狱”攻击(即通过特定输入诱导模型生成不良内容)来迫使其输出有害信息。这种内容的传播可能对个人和社会带来严重的后果,因此,开发一种稳健的有害内容识别和分类模型成为一种紧迫需求。

传统的有害内容分类方法往往依赖于单一的标注者来为每个数据实例提供标签,这样的单一视角难以反映人类多样化的判断标准,导致分类模型对不同语境的适应性差。此外,在仅使用经验风险最小化方法训练的模型中,存在虚假特征干扰的问题,即模型可能会利用一些表面特征来预测有害内容,而非识别其深层次的因果关系。这会导致在数据分布发生变化时模型性能严重下降。例如,某些用语可能在训练集中表现为非有害,而在实际情境下却可能包含有害信息。

为了解决上述问题,北京邮电大学本科校友、美国普渡大学硕士毕业生、美国西北大学博士生程泽磊和所在团队提出了一种新颖的双层优化框架,通过引入“软标签”技术,将多标注者的标注信息整合进模型训练中,并结合群体分布稳健优化技术来优化模型训练时的损失函数,以增强模型对不确定分布风险的鲁棒性。这个方法的创新点在于根据输入样本来动态调整标注者的标注信息在“软标签”中的权重,使得模型在处理不同分组数据时表现出稳健性。此外,团队还在理论上证明了该双层优化算法的收敛性,从而保证了模型在处理复杂语境和分布变化时的稳健性和高效性。

图 | 程泽磊(来源:程泽磊)

审稿人指出该方法在分类准确性和稳健性方面均优于现有方法。具体而言,模型在平均准确率和最差分组准确率(即模型在最具挑战性的情境下的表现)上均超越了基线方法。此外,审稿人还强调该研究通过整合多标注者的视角,在多样化语境下实现了更高效的有害内容分类,这种方法有助于提升人工智能模型在不同文化和语言背景下的适应性。这些优势让该方法不仅在技术上领先,也为构建更加公平的人工智能系统奠定了基础。

该成果主要应用于增强大模型的内容安全性,具体应用包括:

内容安全监管:社交媒体、评论平台和其他在线内容平台可以应用此类稳健的有害内容检测系统,从而在自动检测和屏蔽有害内容时提高准确性,避免误伤非有害内容。

人工智能客服系统:企业的自动客服系统可以引入该技术,实时监测并过滤潜在有害信息,防止用户遭受恶意信息侵害的同时,提升用户体验。

教育和咨询服务:在教育和在线学习平台中,该技术可以帮助识别和过滤潜在有害或误导性内容,确保教育环境的健康和安全。

政府和政策监督:此技术能够用于政府监管平台,以实时监测和分析公众舆论,尤其是涉及仇恨言论、虚假信息和恐怖威胁等内容,从而更好地应对内容安全问题。

而本次研究主要经历了以下几个阶段:

研究团队基于第三方安全公司的大模型有害内容数据,首先识别出大模型在有害内容分类领域的不足,包括标注数据的多样性不足、模型对分布变化的敏感性等问题,并对已有的稳健优化技术进行调研。

在调研基础上,团队提出了基于双层优化的软标签整合方法,旨在增强分类模型的分布鲁棒性,并结合群体分布稳健优化来调整模型在不同分组间的权重,以优化其在不确定环境下的表现。

团队使用PyTorch框架开发了实验模型,并在第三方提供的数据集和公开的HateXplain数据集上验证了其效果。

通过多次实验,团队进一步对模型参数进行调整,确保其在不同情境下的稳健性,并通过对比分析展示了该方法在处理分布变化和多标注数据方面的优越性。

在实验验证后,团队证明了算法的收敛性,并将研究结果整理成论文,被机器学习顶级会议NeurIPS’2024接收。

在研究过程中,团队对多标注者的数据整合方式进行了多次尝试,发现了许多意料之外的现象。例如,人类标注者对于一些职场道德有关的回复不是很敏感,另外受到文化背景的影响,对于特定的俚语用词不是很敏感。大模型(如GPT-4 Turbo、Claude-2等)对于不同文化背景的内容的标注表现出较强的分类能力,但在对逻辑较为复杂的有害内容判定上不如人类标注者。这些现象引发了团队对不同标注者之间权重分配策略的深入思考,最终启发了研究人员提出了基于群体分布稳健优化的方法。

团队计划进一步拓展该研究的应用场景,具体包括以下几个方向:

多模态内容检测:研究团队计划将该方法扩展到多模态内容上,以处理不仅包含文本,还包含图片、视频等多种媒介的有害内容。这一领域的挑战在于不同媒介间的信息交互复杂性,因此需要在算法上进行创新。

模型公平性优化:团队将致力于进一步优化模型的公平性,通过定期检测和缓解潜在的标注偏见,以确保系统在多样化背景下的公正性和准确性。这包括定期审查标注数据,更新模型参数等措施。

其他安全应用扩展:该框架具有通用性,可用于其他安全相关任务,如通过人类反馈调整大模型对特定响应的反馈评分,从而提高模型在应对不确定性情境下的表现。

未经允许不得转载: 中意资讯网 » 西北大学提出双层优化框架,增强模型对不确定分布风险的鲁棒性