CMMLU
模型评测
CMMLU

一个综合性的大模型中文评估基准

? 基准概览

CMMLU (Chinese Massive Multitask Language Understanding) 是由哈工大讯飞联合实验室推出的中文大语言模型专业评估体系,专注于测评模型在中文语境下的综合能力。

核心组成:

  • 67个细分学科领域
  • 11,528道高质量中文题目
  • 5种题型全面覆盖
  • 专业级知识深度
  • 动态评估排行榜
  • 细粒度诊断报告

基准特色:中文核心学科全面专业深度持续更新


? 核心应用场景

? 学术研究

为中文NLP研究提供标准化评估工具

? 企业研发

指导中文大模型的专业能力优化

? 教育科技

测评教育领域AI产品的知识水平

? 本土化应用

评估模型对中国文化和国情的理解


? 使用模式

? 完全开源

评估数据集和代码库MIT协议开源

? 在线提交

支持模型预测结果在线评估

? 本地评测

提供完整本地评估工具链

? 持续扩展

定期新增题目和评估维度

? 评估规模

"覆盖STEM到人文社科的67个学科" - 学科分布

"包含基础教育到专业级的11,528题" - 题库规模

"已评估30+个主流中文大模型" - 模型覆盖


? 核心学科分类

理工科

  • 高等数学
  • 大学物理
  • 计算机科学

人文社科

  • 中国文学
  • 世界历史
  • 哲学伦理

中国特色

  • 中国特色社会主义
  • 中国法律
  • 传统文化

生活常识

  • 健康医疗
  • 金融理财
  • 日常生活

专业领域

  • 临床医学
  • 法律实务
  • 教育教学

新兴科技

  • 人工智能
  • 大数据
  • 量子计算

关键词:CMMLU,中文大模型评估,哈工大讯飞,中文理解基准,多学科测评,中国国情测试,LLM中文能力

相关导航

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注