C-Eval

5
0

一个全面的中文基础模型评估套件

C-Eval是什么

C-Eval是适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含13948个多项选择题,涵盖52个不同的学科和四个难度级别,用在评测大模型中文理解能力。通过零样本(zero-shot)和少样本(few-shot)测试,C-Eval 能评估模型在未见过的任务上的适应性和泛化能力。

C-Eval的主要功能

  • 多学科覆盖:C-Eval 包含 52 个不同学科的题目,涵盖 STEM、社会科学、人文科学等多个领域,全面评估语言模型的知识储备。
  • 多层次难度分级:设有四个难度级别,从基础到高级,细致评估模型在不同难度下的推理和泛化能力。
  • 量化评估与标准化测试:包含 13948 个多项选择题,通过标准化评分系统提供量化性能指标,支持不同模型的横向对比。

如何使用C-Eval

  • 数据下载:
    •  Hugging Face 下载:
from datasets import load_datasetdataset = load_dataset(\"ceval/ceval-exam\", name=\"computer_network\")
    • 或者直接下载 ZIP 文件并解压:
wget https://huggingface.co/datasets/ceval/ceval-exam/resolve/main/ceval-exam.zipunzip ceval-exam.zip
  • 选择评估模式
    • 零样本(Zero-shot):模型在没有任何示例的情况下直接回答问题。
    • 少样本(Few-shot):模型在少量示例(如 5 个)的提示下回答问题。
  • 准备模型:确保模型已经加载并准备好进行推理。如果是基于 Hugging Face 的模型,用以下代码加载:
from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = \"your-model-name\"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)
  • 构建提示(Prompt)
    • 零样本提示:
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。{测试题目}A. {选项A}B. {选项B}C. {选项C}D. {选项D}答案:
    • 少样本提示:
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。{题目1}A. {选项A}B. {选项B}C. {选项C}D. {选项D}答案:A[k-shot 示例]{测试题目}A. {选项A}B. {选项B}C. {选项C}D. {选项D}答案:
  • 生成回答:使用模型生成回答。提取生成文本中的答案选项(A、B、C、D),或者计算每个选项的概率并选择最高概率的答案。
inputs = tokenizer(prompt, return_tensors=\"pt\")outputs = model.generate(**inputs)response = tokenizer.decode(outputs[0], skip_special_tokens=True)answer = extract_answer(response)  # 自定义函数,提取答案选项
  •  评估模型
    • 对于验证集(val),直接计算准确率。
    • 对于测试集(test),需要将结果提交到 C-Eval 官方平台获取评分。
from sklearn.metrics import accuracy_score# 假设 `predictions` 是模型的预测结果,`labels` 是真实答案accuracy = accuracy_score(labels, predictions)print(f\"Validation Accuracy: {accuracy:.2f}\")
  • 提交结果:准备 JSON 文件,包含所有测试题目的预测结果:
{  \"chinese_language_and_literature\": {    \"0\": \"A\",    \"1\": \"B\",    ...  },  ...}
    • 登录 C-Eval 官方平台并提交结果以获取最终评分。

C-Eval的应用场景

  • 语言模型性能评估:全面衡量语言模型的知识水平和推理能力,帮助开发者优化模型性能。
  • 学术研究与模型比较:为研究人员提供标准化的测试平台,分析和比较不同语言模型在各学科的表现,推动学术研究和技术进步。
  • 教育领域应用开发:助力开发智能辅导系统和教育评估工具,用模型生成练习题、自动评分,提升教育领域的智能化水平。
  • 行业应用优化:在金融、医疗、客服等行业,评估和优化语言模型的领域知识和应用能力,提升行业智能化解决方案的效果。
  • 社区合作与技术评测:作为开放平台,促进开发者社区的交流与合作,为模型竞赛和技术评测提供公平的基准测试工具。

数据统计

数据评估

          「C-Eval」浏览人数已经达到5,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:「C-Eval」的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找「C-Eval」的官方进行洽谈提供。

关于C-Eval特别声明

          云知AI导航收录的「C-Eval」等资源均来自互联网,外部链接的内容与准确性不由本站保证或控制。同时,对于该外部链接的指向,不由云知AI导航实际控制,在2025年8月23日 上午7:10收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,云知AI导航不承担由此产生的任何责任。

相关导航

LMArena

LMArena

AI模型评估平台是一款专注于测试和优化机器学习模型的工具,提供全面的性能评估指标,包括准确率、召回率、F1分数等。平台支持多种AI模型类型,涵盖图像识别、自然语言处理等领域,帮助开发者快速验证模型效果。通过可视化分析报告,用户可以直观了解模型表现,并针对性地优化算法。该平台致力于帮助研究团队和企业提升AI模型质量,降低开发成本,加速产品落地进程。
CMMLU

CMMLU

"综合性的大模型中文评估基准"是一个全面测试中文大模型能力的评测体系,涵盖语言理解、生成、推理等多维度任务,通过标准化测试集评估模型在中文语境下的表现。该基准兼顾传统NLP任务和前沿挑战,旨在推动中文大模型技术进步,为研究者提供可靠的评价工具。其特色包括:严格的中文场景设计、层次化评测指标、多样化任务类型,能客观反映模型在中文领域的真实能力水平。