重磅升级，一站式构建智能应用，集齐 DeepSeek+多媒体 API

七牛云 AI 大模型推理服务平台自 2 月份上线以来，凭借高可用的推理能力、丰富的模型资源及良好的兼容性，受到了用户们的高度关注和积极反馈。为进一步提升用户体验，七牛云 AI 大模型推理服务平台进一步重磅升级：不仅集齐了 DeepSeek 系列、Qwen 系列等顶尖开源大模型，还进一步支持 OCR 识图、ASR 听音、TTS 说话等多媒体 API，并结合七牛云存储、上传、下载基础能力，助力用户快速一站式构建 AI 应用和智能服务。

Qwen 系列大模型上新

集成最新的 QwQ-32B 等中等参数大模型

此次升级，我们集成了最新的 QwQ-32B 等大模型，这些模型在逻辑推理与代码生成能力上接近 DeepSeek-R1 全参模型，可以提供更具性价比的推理服务。

通过 Qwen2.5-72B-Instruct 支持工具调用

采用 Qwen2.5-72B-Instruct 模型支持 Function Calling（工具调用），用户可以通过该模型实现更复杂的工具调用和任务执行。

OCR、ASR、TTS 等多媒体 API，支持开发 Agent 应用的识图、听音等能力

OCR（文字识别）

OCR 能够将图片、PDF 文档中的文字精准识别出来，支持超低延迟响应，且无调用次数限制。识别后的文字可以直接作为 AI 推理接口的输入文本，极大提升数据处理效率。

ASR（语音识别）

ASR 能将中、英等多语种语音转换为文字，即使在嘈杂环境中，识别准确率也超过 95%。支持多种音频容器格式，如 RAW、WAV、MP3、OGG 等。识别后的文字同样可以作为 AI 推理的输入文本。

TTS（语音合成）

TTS 提供了丰富的多语言、音色库选择，并支持情感与语速调节。AI 推理出的文本可以直接作为 TTS 接口的输入文本，生成自然流畅的语音。

Kodo（对象存储）

七牛云 Kodo 对象存储支持用户创建专属存储空间，按用户设定的有效期来保存 AI 推理前、后的音频、图片、文档等多媒体介质。上传完成后，返回的 URL 可作为上述 OCR、ASR 接口的输入。

为了更好地利用 AI 大语言模型推理能力助力业务需求，开发者往往需要组合使用多个 API 进行多模态转换（如图片到文本、音频到文本）。推理前，可能需要将本地图片和音频即时上传到推理接口，或需要将已存储在云端图片、音频中的信息转化为文字去推理；推理后，可能需要将推理文本转换为音频，以提升人机交互体验。七牛云为开发者提供了强大的 OCR、ASR 和 TTS 等多媒体 API，并提供基础上传、下载和冷热分层的对象存储能力，一站式解决客户在使用 AI 推理服务时的多媒体资源有关的需求。

七牛云 AI 大模型推理服务平台不仅提供大模型的推理能力，更是大模型服务生态的连接器。未来，我们将开放更多能力，为「通往 AGI 之路」添砖加瓦！