平台介绍 核心功能 快捷入口 术语表 FAQ
访问官网
非官方中文介绍 · 数据以官网为准

了解 Artificial Analysis

一个独立的AI模型评测与对比平台,帮助你根据智能、速度、价格等核心指标,选择最适合的大语言模型和API供应商。

什么是 Artificial Analysis?

Artificial Analysis 是一个独立运营的AI分析平台,专注于对主流大语言模型进行客观、全面的评测和比较。它不隶属于任何AI公司,评测数据完全独立产生。

01

独立客观

不受AI厂商资助,评测方法透明公开,结果可验证可复现。

02

实时数据

持续监测API速度和延迟,价格实时更新,始终反映最新市场状况。

03

全面覆盖

涵盖文本、图像、视频、语音等多模态AI模型,以及GPU硬件评测。

平台核心功能

Artificial Analysis 提供多个维度的AI模型分析工具,以下是各功能模块的介绍。

智能评分

Intelligence Index

Artificial Analysis 开发了自己的综合智能指数(v4.0),通过 10 项独立评测(包括 GDPval-AA、Terminal-Bench Hard、SciCode、GPQA Diamond 等)对各大语言模型进行统一评测。该指数为模型的整体能力提供一个直观的量化分数,方便横向比较不同厂商的模型智能水平。推理模型会以 💡 图标标注。

查看最新智能评分排行

速度与延迟

Speed & Latency

比较各模型第一方API的实际性能表现,核心指标包括:

输出速度
Tokens/秒
首Token延迟
TTFT
端到端时间
含推理

数据取过去 72 小时的中位数(P50),以反映持续的性能变化。

查看最新速度对比

价格对比

Pricing

清晰展示各模型的输入Token价格输出Token价格(以每百万Token美元计),同时提供「智能 vs 价格」的散点图,帮助你找到性价比最高的选择。

不同场景下输入/输出价格的重要性不同 — 生成类任务更依赖输出Token价格,而文档处理类任务更看重输入Token价格。

查看最新价格数据

API 服务商对比

Provider Comparison

同一个开源模型通过不同的API服务商(Cerebras、Groq、Together.ai、Fireworks、DeepInfra 等)部署时,速度和价格可能差异巨大。该功能通过「输出速度 vs 价格」散点图,帮助你直观找到最佳服务商。

比较各服务商表现

模型目录

Model Directory

平台追踪了来自 OpenAI、Anthropic、Google、Meta、Mistral、xAI、DeepSeek、阿里云(Qwen)、Cohere 等数十家厂商的 400+ 个模型。每个模型都标注了创建者、许可证类型(开源/专有)、上下文窗口大小等关键信息。

浏览完整模型列表

关键术语

帮助你更好地理解平台上的各项指标和概念。

Token

AI模型处理文本的基本单位。约 4 个英文字符 = 1 Token,中文约 1-2 字符 = 1 Token。输入和输出分别计费。

TTFT

Time to First Token,首Token延迟。从发出请求到收到第一个Token的时间,衡量响应即时性。

Output Speed

每秒输出Token数(TPS)。流式传输场景下,更高的输出速度意味着用户等待时间更短。

Context Window

模型能处理的最大Token数。更大的上下文窗口允许输入更长文档或保留更多对话历史。

Reasoning Model 💡

具有「思考链」能力的模型(如 o3、DeepSeek R1),回答前进行深度推理。复杂任务更强,但更慢更贵。

P50 中位数

平台使用 72 小时中位数展示速度和延迟数据,反映持续性能趋势,过滤瞬时异常波动。

常见问题

Artificial Analysis 是谁运营的?
Artificial Analysis 是一个独立运营的分析平台,不隶属于任何AI模型提供商。它的目标是为AI行业提供客观、透明、可比较的评测数据,帮助用户做出知情的技术决策。
该平台的数据多久更新一次?
速度和延迟等性能数据是持续监测的,展示的是过去 72 小时的中位数。价格数据会跟随各厂商的定价调整实时更新。新模型发布后通常会很快被纳入评测。
这个中文网站和 Artificial Analysis 是什么关系?
本网站是一个非官方的中文介绍页面,旨在帮助中文用户了解 Artificial Analysis 平台的功能和价值。我们不复制或缓存任何评测数据,所有数据链接均指向官方网站。如需获取最新结果,请直接访问 artificialanalysis.ai
智能评分(Intelligence Index)是怎么算的?
Intelligence Index v4.0 综合了 10 项独立评测,包括 GDPval-AA(真实工作任务)、Terminal-Bench Hard(编码能力)、SciCode(科学编程)、GPQA Diamond(科学推理)、Humanity's Last Exam(推理与知识)等,覆盖推理、编码、知识、指令遵循等多个维度。
不同API供应商提供同一模型,性能真的有差别吗?
是的,差别可能非常显著。例如同一个开源模型,不同供应商使用的推理硬件、量化策略、负载均衡方案各不相同,导致速度可能相差数倍,价格也有显著差异。Artificial Analysis 的供应商对比功能正是为此而设计的。

开始使用 Artificial Analysis

访问官方网站,获取最新AI模型评测数据。比较智能评分、速度、价格,找到最适合你的模型和供应商。

访问 artificialanalysis.ai