Mercury 2

思考迅捷，生成更疾：这款基于扩散技术的LLM将序列模型远远甩在身后。

Mercury 2是一款革命性的大型语言模型（LLM），它采用基于扩散的生成方式，而非传统的自回归方法。这使得它能够并行生成多个词元，其速度比GPT-5 mini和Claude Haiku等领先模型快5倍以上。它以极低的成本提供顶尖的质量，具备细粒度的输出控制能力，并拥有一个统一的多模态数据处理框架。

Paid

from $0.25 per 1M tokens

如何使用 Mercury 2?

通过其API访问Mercury 2，该API与OpenAI API兼容，便于集成。可将其用于实时应用，如语音智能体、带自动补全的即时代码编辑、快速知识库搜索，以及用于写作和头脑风暴的创意协作者。它专为延迟要求苛刻的工作流设计，使开发者能够构建响应迅速的AI智能体、客户支持机器人和沉浸式游戏体验，而不会产生可感知的延迟。

Mercury 2 的核心功能

通过扩散架构实现并行词元生成，速度超过每秒1000个词元——比传统LLM快5倍以上。

显著降低成本，以低于其他顶级模型一半的价格提供前沿模型的质量。

对输出进行细粒度控制，使其能够遵循特定的JSON模式、模板和语义约束，适用于可靠性要求高的应用。

统一的范式，可将语言与音频、图像、视频等其他模态无缝结合，实现多模态AI。

与OpenAI API兼容，只需极少的代码改动即可作为现有LLM集成的直接替代方案。

通过AWS Bedrock和Azure Foundry等主要云提供商提供企业级部署选项，并支持私有部署和微调。

针对超低延迟用例进行了优化，例如实时语音交互、即时代码补全和极速AI智能体。

Mercury 2 的使用场景

构建实时AI编码助手的开发者可以使用Mercury 2实现即时自动补全和重构，让程序员保持心流状态，不受中断性延迟的影响。

客户支持团队可以部署响应极其迅速的语音智能体，进行自然、实时的对话，以类人的速度处理查询和翻译。

内容创作者和营销人员可以利用快速的创意协作者来构思标语、优化广告文案，并通过快速迭代修订生成编辑内容。

数据分析师和研究人员可以在大型组织知识库中进行快速语义搜索，即时获取相关信息和洞察。

产品经理和战略家可以使用该模型模拟设计评审、通过深度分析比较技术，并通过渐进式改进来完善创业想法。

游戏工作室可以创建沉浸式的语音驱动NPC交互和动态叙事生成，能够即时响应玩家的输入。

需要高吞吐量、低延迟AI来处理内部工作流的企业，可以受益于其可扩展、高性价比的并行处理能力，适用于文档摘要和数据提取等任务。

Mercury 2 的价格

Mercury 2

Input $0.25 per 1M tokens, Output $0.75 per 1M tokens

速度最快的推理dLLM。非常适合需要高性能与高速度的复杂应用场景。

Mercury Edit

Input $0.25 per 1M tokens, Output $0.75 per 1M tokens

一款专注于编码的小型dLLM，针对低延迟代码编辑工作流进行了优化。

Mercury 2 的常见问题

最受影响的职业

软件开发者

AI工程师

DevOps工程师

产品经理

内容策略师

客户支持经理

数据分析师

研究科学家

游戏开发者

UX设计师

Mercury 2 的标签

#Diffusion-LLM #Fast-Inference #Low-Latency-AI #API-Compatible #Enterprise-AI

Crew44

在本地优先的工作空间中编排专业AI编码代理人团队。

SuperOPC

AI时代精选设计灵感、资源和教程，专为设计师打造。

Cotypist

Mac 智能自动补全，在每一个应用中预测你的下一个词。

Mercury 2

如何使用 Mercury 2?

Mercury 2 的核心功能

Mercury 2 的使用场景