中意资讯网 中意资讯网

当前位置: 首页 » 前沿资讯 »

大模型应用亟待“标准体系”支撑

□ 贺宝利

大模型AI给出的答案应该是准确无误的吧?

错!结果可能会颠覆你的认知与想象:看似文通字顺的文章,“语义逻辑”与“事实逻辑”却大相径庭。

这种被AI行业称为“幻觉数据”的问题,在国内已经被很多人所熟知。

事实上,早在2023年,美国斯坦福大学的一项研究显示:主流大模型的“幻觉数据”发生率高达25%至40%。

当前我国网民已经突破11亿,其中约2.5亿人已成为生成式AI的用户。高频率出现的“幻觉数据”,已经成为数字经济时代的“数据毒瘤”,也必将倒逼生成式人工智能“标准体系”的快速构建。

广义上看,“幻觉数据”的出现主要包括三大来源。首先,数据污染是“幻觉数据”的主要来源。一般来讲,大模型的训练数据中,本身就可能包含错误、过时或偏见信息。这些有问题的数据经过模型“学习”后,再以程式化的方式输出,必然出现“以错铸错”。其二,模型缺陷也是重要原因。当前大模型普遍存在“过度自信”问题,即使面对不确定的问题也会给出确定性回答。这种机制“先天”缺陷导致模型容易产生虚假信息。其三,算法局限性加剧了这一问题。当前大模型并不完全具备人类智慧思维,缺乏真正的理解、辨识、判断能力,只是基于“统计规律生成文本”。这种机制决定了模型可能生成看似合理实则错误的内容。

回过头来看,正是上述深层原因,导致“幻觉数据”“深度伪造”等“肆意横行”,也成为今年全国两会期间代表、委员们关注的热点话题。其中全国政协委员、360公司创始人周鸿炜,全国人大代表、科大讯飞创始人刘庆峰等人的建议意见较为系统、客观。而全国政协委员齐向东调研多家企业在接入“DeepSeek”时,发现企业的“小数据”面对大模型“大数据”时近乎“裸奔”的尴尬局面,为企业在AI应用过程敲响了安全警钟。

值得庆幸的是,近日,互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布了《人工智能生成合成内容标识办法》。

该办法明确了人工智能生成合成内容标识主要包括显式标识和隐式标识两种形式。显式标识,是指在生成合成内容或者交互场景界面中添加的,具体以文字、声音、图形等方式呈现并可以被用户明显感知到的标识;隐式标识,是指采取技术措施在生成合成内容文件数据中添加的,不易被用户明显感知到的标识。

该办法强调,任何组织和个人不得恶意删除、篡改、伪造、隐匿本办法规定的生成合成内容标识,不得为他人实施上述恶意行为提供工具或者服务,不得通过不正当标识手段损害他人合法权益。

有了标识,就可以做到溯源,能溯源就会知晓“幻觉数据”“深度伪造”等“问题内容”来源于何处。这为后期的行业监管奠定了基础。这项从2025年9月1日起施行的管理办法,旨在规范人工智能生成合成内容,对促进人工智能健康发展,保护公民、法人和其他组织合法权益,维护社会公共利益,意义极其重大。

也就是前不久,中国信息通信研究院依托中国人工智能产业发展联盟安全治理委员会,正式启动2025年第一批人工智能安全评估工作。

评估项目主要围绕AI自身安全能力与AI赋能安全能力两大方面展开。

AI自身安全能力评估,主要包括四大方面:大模型安全防范能力评估;图文大模型安全能力评估;代码大模型安全能力评估:生物特征识别安全能力评估。大模型安全防范能力评估关注大模型的全生命周期安全能力,全面评价大模型的安全水平,依据《大模型安全风险防范能力》系列标准,重点考察“训练数据安全、模型安全、内容安全和服务运营安全”4个方面。图文大模型安全能力评估图文大模型在多模态内容生成应用中的安全能力,以及图文一致性、生成图像标识能力、抵抗攻击等任务上的效果。代码大模型安全能力评估代码大模型在安全风险防范方面的能力,主要分为基础功能和安全风险防范能力,基础功能安全检查包括文本到代码、代码到代码、代码到文本3个功能面,安全风险防范能力要求覆盖内容安全、模型安全方向的十余个安全风险检查项。生物特征识别安全能力评估面向人脸识别技术提供方、技术使用方,依据“可信人脸应用守护计划”制定的标准规范开展相关评测,涉及人脸识别安全专项评估、金融APP人脸识别安全能力评估、移动端电子政务类人脸识别安全能力评估、金融声纹反欺诈系统安全能力评估、掌纹掌静脉识别系统能力评估、多因素身份认证产品能力评估、H5端人脸识别安全能力评估7大方向。

AI赋能安全能力评估,包括安全大模型能力评估;内容安全审核能力评估;AI深度合成内容检测能力评估三部分内容。AI深度合成内容检测能力评估主要评估大模型的网络安全原子能力和网络安全通用能力。其中,网络安全原子能力涉及恶意流量检测、漏洞检测、恶意代码检测、恶意邮件检测计等;网络安全通用能力检测涉及安全问答、安全语言翻译、安全数据处理、安全告警研判等。内容安全审核能力评估主要评估包括内容审核机审系统、人工审核能力评估、审核系统成熟度评估、内容勘误能力评估和内容巡查能力评估等,通过质量高、范围广、有代表性的数据集,实现对内容安全审核系统的功能和性能测试。AI深度合成内容检测能力评估,主要评估包括深度合成视频、深度合成音频、AIGC视频、AIGC图像4个方面的内容检测能力评估,面向主体为深度合成检测服务提供方或相关系统开展评估。

这项从发布评估报名时间开启,计划在2025年7月中旬完成的批次评估工作,无疑是一次行业“安全自律”的巡检,体现出了对行业发展的前瞻审视,必将对AI行业发展大到国家AI战略、规划、政策的研究出台,小到行业技术、标准的制定乃至检测认定,都会起到重要作用。

在数字化与智能化飞速发展的今天,大模型作为人工智能领域的核心驱动力,正广泛应用于各个行业,为经济增长和社会发展注入强大动力。从智能客服提升服务效率,到金融风险预测助力决策,大模型的身影无处不在。然而,随着其应用的深入,大模型生成“幻觉数据”等安全问题不断暴露的情况下,建立大模型应用统一技术标准已刻不容缓。

大模型推理平台是大模型应用的核心基础设施,其技术标准的统一对于保障大模型的性能、安全和互操作性具有重要意义。目前,不同的大模型推理平台在架构设计、算法实现、数据处理等方面存在较大差异,这不仅增加了企业和开发者的使用成本,也限制了大模型技术的推广和应用。

在建立大模型使用统一技术标准的过程中,需要政府、企业、科研机构等各方共同参与,形成合力。政府应发挥主导作用,制定相关政策和法规,引导和规范大模型垂直应用适配框架与工具。加大对行业技术研发和标准制定的支持力度,鼓励企业和科研机构积极参与大模型技术的创新和应用。同时,加强对大模型技术应用的监管,确保其符合法律法规和道德规范。

企业作为大模型技术的主要应用者和推动者,应积极参与大模型应用统一技术标准的制定和实施。同时,企业应自觉遵守相关标准和规范,加强对大模型技术应用工程中的风险管理,保障用户的利益。

科研机构作为大模型技术应用的研究和创新主体,应加强对大模型技术的基础研究和应用研究。深入探索大模型的工作原理和性能特点,为大模型使用统一技术标准落地制定提供理论支持。同时加强与企业的合作,将科研成果转化为实际生产力,积极参与国际交流与合作,学习和借鉴国际先进经验,提升我国大模型技术的国际竞争力。

责编:韦文洁

未经允许不得转载: 中意资讯网 » 大模型应用亟待“标准体系”支撑