第07版:信息通信
3上一版  下一版4
 
2023中国数字经济发展指数发布
汽车巨头“逐梦”软件
微软推出全新基准AGIEval AI
中国移动联合中兴通讯完成5G无线算网一体车联网新架构验证
编辑:诸玲珍
重庆人工智能创新中心正式投入使用
 
版面导航
 
3上一期  下一期4
3上一篇  下一篇4 2023年5月16日 放大 缩小 默认        

微软推出全新基准AGIEval AI

 

本报讯 微软研究人员近日发布了一个新的基准测试AGIEval,用于评估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。

实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。

AGIEval数据集主要遵循两个设计原则:强调人脑级别的认知任务设计,以与人类认知和解决问题密切相关的任务为中心。与现实世界场景的相关性,通过选择来自高标准的入学考试和资格考试的任务,可以确保评估结果能够反映个人在不同领域和背景下经常遇到的挑战的复杂性和实用性。

随着大型基础模型的能力越来越强,如何评估模型在人类认知任务中的表现变得越来越重要。AGIEval基准测试可以帮助人们更好地了解模型的泛化能力和局限性。

评估模型在人类认知任务中的表现对于确保模型能够有效地处理复杂的、以人为本的任务至关重要。评估推理能力可以确保模型在不同环境下的可靠性和可信度。 (微 文)

 
3上一篇  下一篇4  
  


电子信息产业网 http://www.cena.com.cn
中国电子报社版权所有。未经许可,不得转载或镜像。
地址:北京市海淀区紫竹院路66号赛迪大厦8层 邮编:100048
订阅电话:010-88558892 | 88558816

 

关闭