
H2O EvalGPT
H2O.ai推出的基于Elo评级方法的大模型评估系统
HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是斯坦福大学推出的大模型评测体系,评测方法主要包括场景、适配、指标三大模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,通过准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率综合评测模型表现,适用问答、信息检索、文本分类等任务,为语言模型提供更全面、系统的评估方法,帮助研究人员和开发者更好地理解和优化模型性能。
pip install helm
git clone https://github.com/stanford-crfm/helm.gitcd helmpip install -e .
helm run --config <path_to_config_file> --model <model_name>
<path_to_config_file>
:配置文件的路径。<model_name>
:要评估的语言模型名称(例如gpt-3
、bert-base-uncased
等)。云知AI导航收录的「HELM」等资源均来自互联网,外部链接的内容与准确性不由本站保证或控制。同时,对于该外部链接的指向,不由云知AI导航实际控制,在2025年8月23日 上午7:18收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,云知AI导航不承担由此产生的任何责任。