人工分析 — Artificial Analysis AI模型评测平台

About

什么是 Artificial Analysis？

Artificial Analysis 是一个独立运营的AI分析平台，专注于对主流大语言模型进行客观、全面的评测和比较。它不隶属于任何AI公司，评测数据完全独立产生。

01

独立客观

不受AI厂商资助，评测方法透明公开，结果可验证可复现。

02

实时数据

持续监测API速度和延迟，价格实时更新，始终反映最新市场状况。

03

全面覆盖

涵盖文本、图像、视频、语音等多模态AI模型，以及GPU硬件评测。

Core Features

平台核心功能

Artificial Analysis 提供多个维度的AI模型分析工具，以下是各功能模块的介绍。

智能评分

Intelligence Index

Artificial Analysis 开发了自己的综合智能指数（v4.0），通过 10 项独立评测（包括 GDPval-AA、Terminal-Bench Hard、SciCode、GPQA Diamond 等）对各大语言模型进行统一评测。该指数为模型的整体能力提供一个直观的量化分数，方便横向比较不同厂商的模型智能水平。推理模型会以 💡 图标标注。

查看最新智能评分排行

速度与延迟

Speed & Latency

比较各模型第一方API的实际性能表现，核心指标包括：

输出速度

Tokens/秒

首Token延迟

TTFT

端到端时间

含推理

数据取过去 72 小时的中位数（P50），以反映持续的性能变化。

查看最新速度对比

价格对比

Pricing

清晰展示各模型的输入Token价格和输出Token价格（以每百万Token美元计），同时提供「智能 vs 价格」的散点图，帮助你找到性价比最高的选择。

不同场景下输入/输出价格的重要性不同 — 生成类任务更依赖输出Token价格，而文档处理类任务更看重输入Token价格。

查看最新价格数据

API 服务商对比

Provider Comparison

同一个开源模型通过不同的API服务商（Cerebras、Groq、Together.ai、Fireworks、DeepInfra 等）部署时，速度和价格可能差异巨大。该功能通过「输出速度 vs 价格」散点图，帮助你直观找到最佳服务商。

比较各服务商表现

模型目录

Model Directory

平台追踪了来自 OpenAI、Anthropic、Google、Meta、Mistral、xAI、DeepSeek、阿里云（Qwen）、Cohere 等数十家厂商的 400+ 个模型。每个模型都标注了创建者、许可证类型（开源/专有）、上下文窗口大小等关键信息。

浏览完整模型列表

Quick Access

关键术语

帮助你更好地理解平台上的各项指标和概念。

Token

AI模型处理文本的基本单位。约 4 个英文字符 = 1 Token，中文约 1-2 字符 = 1 Token。输入和输出分别计费。

TTFT

Time to First Token，首Token延迟。从发出请求到收到第一个Token的时间，衡量响应即时性。

Output Speed

每秒输出Token数（TPS）。流式传输场景下，更高的输出速度意味着用户等待时间更短。

Context Window

模型能处理的最大Token数。更大的上下文窗口允许输入更长文档或保留更多对话历史。

Reasoning Model 💡

具有「思考链」能力的模型（如 o3、DeepSeek R1），回答前进行深度推理。复杂任务更强，但更慢更贵。

P50 中位数

平台使用 72 小时中位数展示速度和延迟数据，反映持续性能趋势，过滤瞬时异常波动。

FAQ

常见问题

Artificial Analysis 是谁运营的？

Artificial Analysis 是一个独立运营的分析平台，不隶属于任何AI模型提供商。它的目标是为AI行业提供客观、透明、可比较的评测数据，帮助用户做出知情的技术决策。

该平台的数据多久更新一次？

速度和延迟等性能数据是持续监测的，展示的是过去 72 小时的中位数。价格数据会跟随各厂商的定价调整实时更新。新模型发布后通常会很快被纳入评测。

这个中文网站和 Artificial Analysis 是什么关系？

本网站是一个非官方的中文介绍页面，旨在帮助中文用户了解 Artificial Analysis 平台的功能和价值。我们不复制或缓存任何评测数据，所有数据链接均指向官方网站。如需获取最新结果，请直接访问 artificialanalysis.ai。

智能评分（Intelligence Index）是怎么算的？

Intelligence Index v4.0 综合了 10 项独立评测，包括 GDPval-AA（真实工作任务）、Terminal-Bench Hard（编码能力）、SciCode（科学编程）、GPQA Diamond（科学推理）、Humanity's Last Exam（推理与知识）等，覆盖推理、编码、知识、指令遵循等多个维度。

不同API供应商提供同一模型，性能真的有差别吗？

是的，差别可能非常显著。例如同一个开源模型，不同供应商使用的推理硬件、量化策略、负载均衡方案各不相同，导致速度可能相差数倍，价格也有显著差异。Artificial Analysis 的供应商对比功能正是为此而设计的。

开始使用 Artificial Analysis

访问官方网站，获取最新AI模型评测数据。比较智能评分、速度、价格，找到最适合你的模型和供应商。

访问 artificialanalysis.ai

了解 Artificial Analysis

什么是 Artificial Analysis？

独立客观

实时数据

全面覆盖

平台核心功能

智能评分

速度与延迟

价格对比

API 服务商对比

模型目录

更多评测领域

文本模型竞技场

GPU 硬件基准测试

视频生成竞技场

图像生成竞技场

语音合成竞技场

年度AI行业报告

关键术语

Token

TTFT

Output Speed

Context Window

Reasoning Model 💡

P50 中位数

常见问题

开始使用 Artificial Analysis