国际组织首次就大模型安全发布测试标准

第02版：综合新闻

放大+ 缩小- 默认o

国际组织首次就大模型安全发布测试标准

本报讯记者宋婧报道：近日，第27届联合国科技大会在瑞士日内瓦召开。会议期间，世界数字技术院（WDTA）正式发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。据悉，这两项国际标准是由来自OpenAI、谷歌、微软、英伟达、蚂蚁集团、科大讯飞、百度、腾讯等数十家中外科技企业的专家学者共同编制而成，是国际组织首次就大模型安全领域发布国际标准，代表全球人工智能（AI）安全评估和测试进入新的基准。

据了解，世界数字技术院（WDTA）成立于2023年4月，是在日内瓦注册的国际非政府组织。该组织致力于在全球范围内推进数字技术，促进国际合作。AI STR（安全、可信、负责任）计划是WDTA的核心倡议，旨在确保人工智能系统的安全性、可信性和责任性。蚂蚁集团、华为、科大讯飞、国际数据空间协会（IDSA）、弗劳恩霍夫研究所、中国电子等均为其成员单位。

近年来，大模型的爆火点燃了市场对生成式AI技术的热情，各式各样的AI产品蜂拥而出，新业态、新模式不断涌现。与此同时，大量AI生成内容的出现也导致监管与发展的矛盾更加突出。马斯克等千名业界和学界人士曾联署公开信，呼吁所有人工智能实验室立即暂停训练比GPT-4更强大的AI系统，暂停至少6个月，以便制定和实施安全协议。ChatGPT的开发者也表示，全社会只剩下有限的时间来决定如何对其进行监管。

正因如此，世界各国都在加强对于大模型安全的研究和管控。欧盟通过了首个《人工智能法案》，开始对人工智能技术带来的安全风险进行严格管控；美国推出了有关生成式人工智能的首套监管规定，要求对人工智能进行新的安全评估、公平和民权指引以及对劳动力市场影响的研究；我国先后发布了《全球人工智能治理倡议》《生成式人工智能服务管理暂行办法》《生成式人工智能服务安全基本要求》等，旨在促进生成式人工智能安全可信发展，推进全球人工智能治理领域合作共识。此次《生成式人工智能应用安全测试标准》的颁布代表着人工智能安全评估和测试有了新的基准。该标准为测试和验证生成式AI应用的安全性提供了一个框架，特别是那些使用大语言模型（LLM）构建的应用程序。它定义了人工智能应用程序架构每一层的测试和验证范围，包括基础模型选择、嵌入和矢量数据库、RAG或检索增强生成、AI应用运行时安全等等，确保AI应用各个方面都经过严格的安全性和合规性评估，保障其在整个生命周期内免受威胁和漏洞侵害。

WDTA人工智能安全可信负责任工作组组长黄连金表示，此次发布的标准填补了大语言模型和生成式AI应用方面安全测试领域的空白，为业界提供了统一的测试框架和明确的测试方法，有助于提高AI系统安全性，促进AI技术负责任发展，增强公众信任。

放大+ 缩小- 默认o