AI网站、程序、应用、学习、搜索导航基础

模型评测

CMMLU

一个综合性的大模型中文评估基准

链接直达手机查看

? 基准概览

CMMLU (Chinese Massive Multitask Language Understanding) 是由哈工大讯飞联合实验室推出的中文大语言模型专业评估体系，专注于测评模型在中文语境下的综合能力。

核心组成：

67个细分学科领域

11,528道高质量中文题目

5种题型全面覆盖

专业级知识深度

动态评估排行榜

细粒度诊断报告

基准特色：中文核心、学科全面、专业深度、持续更新

? 核心应用场景

? 学术研究

为中文NLP研究提供标准化评估工具

? 企业研发

指导中文大模型的专业能力优化

? 教育科技

测评教育领域AI产品的知识水平

? 本土化应用

评估模型对中国文化和国情的理解

? 使用模式

? 完全开源

评估数据集和代码库MIT协议开源

? 在线提交

支持模型预测结果在线评估

? 本地评测

提供完整本地评估工具链

? 持续扩展

定期新增题目和评估维度

? 评估规模

"覆盖STEM到人文社科的67个学科" - 学科分布
"包含基础教育到专业级的11,528题" - 题库规模

"已评估30+个主流中文大模型" - 模型覆盖

? 核心学科分类

理工科

高等数学

大学物理

计算机科学

人文社科

中国文学

世界历史

哲学伦理

中国特色

中国特色社会主义

中国法律

传统文化

生活常识

健康医疗

金融理财

日常生活

专业领域

临床医学

法律实务

教育教学

新兴科技

人工智能

大数据

量子计算

关键词：CMMLU，中文大模型评估，哈工大讯飞，中文理解基准，多学科测评，中国国情测试，LLM中文能力

相关导航

LLM Stats

实时追踪和比较主流大语言模型性能数据的专业平台

ChatGPT Pulse

实时监测ChatGPT对话质量与用户体验的智能分析工具

C-Eval

一个全面的中文基础模型评估套件

FlagEval

智源研究院推出的FlagEval（天秤）大模型评测平台

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

SuperCLUE

中文通用大模型综合性测评基准

发表回复取消回复
要发表评论，您必须先登录。