AI网站、程序、应用、学习、搜索导航基础

模型评测

AGI-Eval

AI大模型评测社区

链接直达手机查看

? 评估体系概览

AGI-Eval是由国际AGI研究联盟开发的通用人工智能评估框架，旨在建立面向AGI的多维度测评标准。

核心组成：

8大核心智能维度

36项细分能力指标

500+跨领域测试任务

动态基准测试系统

人类对标评估

认知发展追踪

体系特色：通用性、多维性、演进性、人类中心

? 核心应用场景

? AGI研究

为通用人工智能发展提供评估基准

? 系统开发

指导AGI系统的能力建设和优化

? 标准制定

参与国际AGI技术标准制定

?‍? 教育训练

评估AI系统的学习和发展能力

? 使用模式

? 开放标准

评估框架和基础数据集开放获取

? 认证服务

提供官方认证评估服务

? 研究合作

与研究机构共建评估维度

? 动态演进

每季度更新评估内容

? 评估规模

"覆盖50+国家的研究机构" - 2023年数据

"累计评估200+AI系统" - 平台统计

"包含1000+人类对照样本" - 人类基准

? 核心评估维度

认知能力

感知理解

逻辑推理

抽象思维

学习能力

知识获取

迁移学习

元学习

社会智能

情感理解

道德判断

协作能力

创造力

问题提出

创新解决

艺术创作

身体智能

运动规划

操作控制

环境适应

自我意识

元认知

目标设定

价值体系

关键词：AGI-Eval，通用人工智能评估，AGI基准测试，智能多维测评，认知能力评估，AGI发展指标

相关导航

SuperCLUE

中文通用大模型综合性测评基准

MMBench

全方位的多模态大模型能力评测体系

LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

Agent Compass

AI智能体性能评估与优化平台，帮助用户测试和提升AI代理表现

发表回复取消回复
要发表评论，您必须先登录。