AI模型评测

找到 18 个相关网站

CLiB中文大模型能力评测榜单

CLiB中文大模型能力评测榜单

是一个关于中文大模型能力评测的榜单仓库，涵盖 195 个商用

FlagEval 致力于提供科学、公正、开放的大模型评测平台，提升模型性能评估的效率与客观性

FlagEval 致力于提供科学、公正、开放的大模型评测平台，提升模型性能评估的效率与客观性

FlagEval致力于提供科学、公正、开放的大模型评测平台，

LYi 林哥的大模型野榜

让用户出题，安排AI模型回答，由用户选择评判，从而对大模型进

H2O Eval Studio EvalGPT AI 全面评估生成式AI与LLM应用的智能平台

H2O Eval Studio EvalGPT AI 全面评估生成式AI与LLM应用的智能平台

H2O Eval Studio 作为H2O.ai 旗下的一款

FlagEval （天秤）大模型评测

FlagEval （天秤）大模型评测体系及开放平台，旨在建立

superbench 大模型评测榜单

superbench 大模型评测榜单

SuperBench是由清华大学基础模型研究中心联合中关村实

Artificial Analysis AI基准测试平台翻译站点

Artificial Analysis AI基准测试平台翻译站点

Artificial Analysis平台是一家领先的独立A

MMBench 提供多维度评估工具，专注于视觉-语言模型的能力验证与可靠性提升

MMBench 提供多维度评估工具，专注于视觉-语言模型的能力验证与可靠性提升

MMBench提供多维度评估工具，专注于视觉-语言模型的能力

一站式大模型服务评测与模型API调用平台

lmarena.ai翻译站点

lmarena.ai 评测竞技场排行榜,是一个由加州大学伯克

Livebench LLM模型的基准测试平台翻译站点

Livebench LLM模型的基准测试平台翻译站点

LiveBench 是一个针对大型语言模型（LLM）的权威基

Orq.ai 是一个集成平台，帮助团队实验、部署和监控生成AI应用的全生命周期管理

Orq.ai 是一个集成平台，帮助团队实验、部署和监控生成AI应用的全生命周期管理

Orq.ai is the #1 platform for

CLUE中文语言理解基准测评

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型

OpenCompass司南

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得

SuperCLUE是一个专注于中文大模型综合测评的权威平台，

OpenCompass司南致力于为大模型提供全面、客观的评估参考，推动AI技术的发展与应用

OpenCompass司南致力于为大模型提供全面、客观的评估参考，推动AI技术的发展与应用

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得

AGI-Eval 评测助力，让AI成为你更好的伙伴

AGI-Eval 评测助力，让AI成为你更好的伙伴

AGI-Eval评测社区不仅是一个权威的AI模型能力评估平台

Open LLM Leaderboard翻译站点

Hugging Face 推出新版开源大模型排行榜（Open