
重磅升级,一站式构建智能应用,集齐 DeepSeek+多媒体 API
七牛云 AI 大模型推理服务平台自 2 月份上线以来,凭借高可用的推理能力、丰富的模型资源及良好的兼容性,受到了用户们的高度关注和积极反馈。为进一步提升用户体验,七牛云 AI 大模型推理服务平台进一步重磅升级:不仅集齐了 DeepSeek 系列、Qwen 系列等顶尖开源大模型,还进一步支持 OCR 识图、ASR 听音、TTS 说话等多媒体 API,并结合七牛云存储、上传、下载基础能力,助力用户快速一站式构建 AI 应用和智能服务。
Qwen 系列大模型上新
集成最新的 QwQ-32B 等中等参数大模型
此次升级,我们集成了最新的 QwQ-32B 等大模型,这些模型在逻辑推理与代码生成能力上接近 DeepSeek-R1 全参模型,可以提供更具性价比的推理服务。
通过 Qwen2.5-72B-Instruct 支持工具调用
采用 Qwen2.5-72B-Instruct 模型支持 Function Calling(工具调用),用户可以通过该模型实现更复杂的工具调用和任务执行。
OCR、ASR、TTS 等多媒体 API,支持开发 Agent 应用的识图、听音等能力
OCR(文字识别)
OCR 能够将图片、PDF 文档中的文字精准识别出来,支持超低延迟响应,且无调用次数限制。识别后的文字可以直接作为 AI 推理接口的输入文本,极大提升数据处理效率。
ASR(语音识别)
ASR 能将中、英等多语种语音转换为文字,即使在嘈杂环境中,识别准确率也超过 95%。支持多种音频容器格式,如 RAW、WAV、MP3、OGG 等。识别后的文字同样可以作为 AI 推理的输入文本。
TTS(语音合成)
TTS 提供了丰富的多语言、音色库选择,并支持情感与语速调节。AI 推理出的文本可以直接作为 TTS 接口的输入文本,生成自然流畅的语音。
Kodo(对象存储)
七牛云 Kodo 对象存储支持用户创建专属存储空间,按用户设定的有效期来保存 AI 推理前、后的音频、图片、文档等多媒体介质。上传完成后,返回的 URL 可作为上述 OCR、ASR 接口的输入。
为了更好地利用 AI 大语言模型推理能力助力业务需求,开发者往往需要组合使用多个 API 进行多模态转换(如图片到文本、音频到文本)。推理前,可能需要将本地图片和音频即时上传到推理接口,或需要将已存储在云端图片、音频中的信息转化为文字去推理;推理后,可能需要将推理文本转换为音频,以提升人机交互体验。七牛云为开发者提供了强大的 OCR、ASR 和 TTS 等多媒体 API,并提供基础上传、下载和冷热分层的对象存储能力,一站式解决客户在使用 AI 推理服务时的多媒体资源有关的需求。
七牛云 AI 大模型推理服务平台不仅提供大模型的推理能力,更是大模型服务生态的连接器。未来,我们将开放更多能力,为「通往 AGI 之路」添砖加瓦!