? 基准概览
CMMLU (Chinese Massive Multitask Language Understanding) 是由哈工大讯飞联合实验室推出的中文大语言模型专业评估体系,专注于测评模型在中文语境下的综合能力。
核心组成:
- 67个细分学科领域
- 11,528道高质量中文题目
- 5种题型全面覆盖
- 专业级知识深度
- 动态评估排行榜
- 细粒度诊断报告
基准特色:中文核心、学科全面、专业深度、持续更新
? 核心应用场景
? 学术研究
为中文NLP研究提供标准化评估工具
? 企业研发
指导中文大模型的专业能力优化
? 教育科技
测评教育领域AI产品的知识水平
? 本土化应用
评估模型对中国文化和国情的理解
? 使用模式
? 完全开源
评估数据集和代码库MIT协议开源
? 在线提交
支持模型预测结果在线评估
? 本地评测
提供完整本地评估工具链
? 持续扩展
定期新增题目和评估维度
? 评估规模
"覆盖STEM到人文社科的67个学科" - 学科分布
"包含基础教育到专业级的11,528题" - 题库规模
"已评估30+个主流中文大模型" - 模型覆盖
? 核心学科分类
理工科
- 高等数学
- 大学物理
- 计算机科学
人文社科
- 中国文学
- 世界历史
- 哲学伦理
中国特色
- 中国特色社会主义
- 中国法律
- 传统文化
生活常识
- 健康医疗
- 金融理财
- 日常生活
专业领域
- 临床医学
- 法律实务
- 教育教学
新兴科技
- 人工智能
- 大数据
- 量子计算
关键词:CMMLU,中文大模型评估,哈工大讯飞,中文理解基准,多学科测评,中国国情测试,LLM中文能力
中文通用大模型综合性测评基准