HELM-AI模型评测-Ai导航-Ai应用网址导航

Ai导航 - Ai绘画_Ai写作_Ai视频生成_Ai数字人_Ai产品_Ai人工智能_Ai应用网址导航

HELM

网站域名：crfm.stanford.edu 更新日期：2024-04-23 网站简称：HELM 网站分类：AI模型评测人气指数：182

站点介绍

HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。它评测主要覆盖的是英语，有7个指标，包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率,任务包括问答、信息检索、摘要、文本分类等

MMLU

C-Eval

FlagEval

SuperCLUE

OpenCompass

CMMLU

MMBench

LLMEval3