AGIMarks · 通用人工智能的标尺

用更聪明的方式
衡量大模型的能力

AGIMarks 聚焦 AGI 评测、模型对比与前沿研究分享，帮助开发者、研究者和企业更清晰地理解每一次进化。

查看榜单了解更多

评测维度

已收录模型

公开测评样本

% 自动化流程

为 AGI 时代而生的评测平台

从能力维度到落地场景，AGIMarks 提供一站式的模型理解工具。

🧭

多维度能力图谱

覆盖推理、代码、数学、多模态、长上下文等关键维度，呈现模型全貌而非单一分数。

⚖️

公开透明的方法论

开放评测协议、样本与脚本，支持复现，让每一个分数都可追溯、可质询。

🚀

持续追踪前沿

跟随主流模型发布节奏，第一时间更新对比结果与变化趋势。

🧪

真实场景沙盒

不止题库，还包含工程、写作、Agent 等贴近落地的任务集，衡量真实世界的有用性。

🔌

开放 API 接入

提供查询接口与数据导出，方便集成到内部仪表盘、研究报告与产品决策中。

🛡️

安全与对齐评估

关注鲁棒性、价值对齐与边界行为，帮助识别模型在真实使用中的风险点。

榜单一览

示例数据，仅作展示用途。完整结果请访问榜单页面。

排名	模型	综合分	趋势
1	Model α-Pro	92.4	↑ 1.2
2	Model β-Ultra	89.7	↑ 0.6
3	Model γ-Max	86.1	— 0.0
4	Model δ-Air	81.5	↑ 2.1
5	Model ε-Lite	76.3	— 0.0

关于 AGIMarks

我们相信，理解模型，是用好模型的第一步。

🎯 使命

用清晰、可信的评测，帮助行业建立对 AGI 进展的共同语言。

🤝 团队

来自 AI 研究、工程与产品领域的从业者，共同维护这套评测体系。

🌍 社区

欢迎研究者贡献新的评测任务、复现方案与数据，让标尺更准。

用更聪明的方式衡量大模型的能力