AGI-Eval
AGI-Eval是什么AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大...PubMedQA
PubMedQA是什么PubMedQA是专门用在生物医学研究问题回答的数据集。PubMedQA通过文献摘要回答“是/否/...LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经...HELM
HELM是什么HELM全称Holistic Evaluation of Language Models(语言模型整体评估...H2O EvalGPT
H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务...MMBench
MMBench是什么MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙...OpenCompass
OpenCompass是什么OpenCompass是上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型...FlagEval
FlagEval是什么FlagEval(天秤)是北京智源人工智能研究院(BAAI)推出的科学、公正、开放的大模型评测体系...SuperCLUE
SuperCLUE是什么SuperCLUE 是针对中文大模型的综合性评测基准,能全面评估模型在多个维度上的性能表现。Su...CMMLU
CMMLU是什么CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级...Open LLM Leaderboard
Open LLM Leaderboard是什么Open LLM Leaderboard 是最大的大模型和数据集社区 Hu...MMLU
MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言...C-Eval
C-Eval是什么C-Eval是适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员...