什么是 Artificial Analysis?
Artificial Analysis 是一个独立运营的AI分析平台,专注于对主流大语言模型进行客观、全面的评测和比较。它不隶属于任何AI公司,评测数据完全独立产生。
独立客观
不受AI厂商资助,评测方法透明公开,结果可验证可复现。
实时数据
持续监测API速度和延迟,价格实时更新,始终反映最新市场状况。
全面覆盖
涵盖文本、图像、视频、语音等多模态AI模型,以及GPU硬件评测。
平台核心功能
Artificial Analysis 提供多个维度的AI模型分析工具,以下是各功能模块的介绍。
智能评分
Intelligence IndexArtificial Analysis 开发了自己的综合智能指数(v4.0),通过 10 项独立评测(包括 GDPval-AA、Terminal-Bench Hard、SciCode、GPQA Diamond 等)对各大语言模型进行统一评测。该指数为模型的整体能力提供一个直观的量化分数,方便横向比较不同厂商的模型智能水平。推理模型会以 💡 图标标注。
查看最新智能评分排行速度与延迟
Speed & Latency比较各模型第一方API的实际性能表现,核心指标包括:
数据取过去 72 小时的中位数(P50),以反映持续的性能变化。
查看最新速度对比价格对比
Pricing清晰展示各模型的输入Token价格和输出Token价格(以每百万Token美元计),同时提供「智能 vs 价格」的散点图,帮助你找到性价比最高的选择。
不同场景下输入/输出价格的重要性不同 — 生成类任务更依赖输出Token价格,而文档处理类任务更看重输入Token价格。
查看最新价格数据API 服务商对比
Provider Comparison同一个开源模型通过不同的API服务商(Cerebras、Groq、Together.ai、Fireworks、DeepInfra 等)部署时,速度和价格可能差异巨大。该功能通过「输出速度 vs 价格」散点图,帮助你直观找到最佳服务商。
比较各服务商表现模型目录
Model Directory平台追踪了来自 OpenAI、Anthropic、Google、Meta、Mistral、xAI、DeepSeek、阿里云(Qwen)、Cohere 等数十家厂商的 400+ 个模型。每个模型都标注了创建者、许可证类型(开源/专有)、上下文窗口大小等关键信息。
浏览完整模型列表更多评测领域
除了文本模型对比,Artificial Analysis 还覆盖以下专题领域。
文本模型竞技场
Text Arena & Leaderboard
通过盲测投票的方式对LLM进行排名,用户选择更优的回答来产生 ELO 评分。
前往官网 🔧GPU 硬件基准测试
Hardware Benchmarks
全面的语言模型推理 GPU 基准测试,涵盖 NVIDIA H100/H200/B200 及 AMD MI300X。
前往官网 🎬视频生成竞技场
Video Arena & Leaderboard
比较领先的文生视频和图生视频模型,通过盲测投票排名。
前往官网 🎨图像生成竞技场
Image Arena & Leaderboard
对比主流AI图像生成和编辑模型的质量表现,通过盲测投票排名。
前往官网 🔊语音合成竞技场
Speech Arena & Leaderboard
比较领先的文字转语音模型的自然度、表现力和音质。
前往官网 📊年度AI行业报告
State of AI Report
综合AI行业分析报告,回顾关键趋势、模型进展和市场竞争格局。
前往官网关键术语
帮助你更好地理解平台上的各项指标和概念。
Token
AI模型处理文本的基本单位。约 4 个英文字符 = 1 Token,中文约 1-2 字符 = 1 Token。输入和输出分别计费。
TTFT
Time to First Token,首Token延迟。从发出请求到收到第一个Token的时间,衡量响应即时性。
Output Speed
每秒输出Token数(TPS)。流式传输场景下,更高的输出速度意味着用户等待时间更短。
Context Window
模型能处理的最大Token数。更大的上下文窗口允许输入更长文档或保留更多对话历史。
Reasoning Model 💡
具有「思考链」能力的模型(如 o3、DeepSeek R1),回答前进行深度推理。复杂任务更强,但更慢更贵。
P50 中位数
平台使用 72 小时中位数展示速度和延迟数据,反映持续性能趋势,过滤瞬时异常波动。