近日,在由嘉兴市工商业联合会主办,嘉兴市湖南商会、七牛云承办的「AI 赋能 智赢未来——DeepSeek 企业应用实战培训」活动上,七牛云技术副总裁宿度带来了《生成式 AI 大模型——推理浪潮》的精彩分享,深入浅出地介绍了大语言模型和生成式 AI 发展历程,阐述了 DeepSeek-R1大型推理模型的推理优势和出圈过程,并分析了由推理驱动的搜索类、知识库类和 Agent 类场景所带动的 AI to C、AI to B、AI to G 产业浪潮趋势。宿度还为现场观众推介了七牛云融合多媒体生态能力的 AI 大模型推理服务(Token API)以及 AIGC 数字人 + DeepSeek 视频营销方案。


以下内容根据演讲实录整理。

首先我们简单回顾一下 DeepSeek-R1 大型推理模型的出圈过程

从 Stable Diffusion 等文生图扩散模型的闪亮登场,到 Transformer 架构的生成式预训练(GPT)大语言模型的王牌产品 ChatGPT 在 22 年底横空出世,人们在全球范围内逐步达成共识,确信这波以“深度神经网络+海量数据+超大规模 GPU 算力”为基础的生成式 AI(Generative AI)爆发出了远超上一波经典决策式 AI(如人脸识别等)的能量。在蒸汽机、电力所驱动的前两次工业革命中,机械能、电能替代了人和动物的体力,这一次,“智能”将以类似的方式替代人的脑力,促使人类社会在各层面、在各行各业中发生深远的转变。然而,由于他国政府采取算力管制,及对知名顶尖闭源大模型的访问限制,国内民众可能在过去 2 年中对这样的 AI 范式转变感受得还不够深切。

今年春节前夕,DeepSeek 先后发布了 V3基础大模型、R1 大型推理模型,以 1/20~1/30 的训练和推理算力开销就逼近了 OpenAI-o1 大型推理模型的能力效果,依次引爆海外学术界和科技界,出圈扩散之余更引起投资人的关注,导致英伟达等美国科技股大跌,震动海内外。与大模型同期发布的聊天对话 App,在 iOS 应用市场下载榜超越 ChatGPT登顶,彻底点燃了国内民众使用 AI 的热情。随后,IT 互联网产业界积极拥抱 R1 大型推理模型,政府高层座谈会召开,微信、百度搜索等国民级 App 迅速接入 R1 推理大模型免费提供的深度思考功能,进一步加速了生成式 AI 在日常生活中应用普及和产业落地。

本次分享,我们将介绍 LLM 大语言模型的演进历程和智能原理、大模型推理能力的革命性进展和 DeepSeek 大模型的特点,并分析 AI to C 趋势、AI to B 产业红利,探讨探讨七牛云加速AI产业落地的AI大模型推理服务,以及将 DeepSeek + AIGC 的智能视频营销方案等。

大语言模型的原理及演进 

大语言模型从 2017 年谷歌发布的 Transformer 架构论文开始演进,论文公开发布后,就有人基于它开发了 GPT 预训练大模型。最开始的几个版本虽然还不够好,但已经显现出了 Scaling Law(规模化法则)效应,即用更大的模型参数、更多的数据和算力训练,提升问答等内容生成质量。到 OpenAI 发布 GPT-3 时,模型能力已接近实用化;2022 年 11 月,依托 GPT-3.5 大模型,OpenAI 发布了现象级应用 ChatGPT,这是一个大语言模型驱动的对话式聊天工具,连同 App 一起在短时间内创造用户最快增长纪录,迅速火爆全球。

后来,Meta 等公司开始发布 Llama 等开源大语言模型;法国团队也做了开源的 Mistral,是第一个 MoE 混合架构大模型代表。当业界认为 Scaling Law 可能见顶时,2024 年 12 月,OpenAI 发布了 OpenAI-o1,但它没有对外提供技术报告,也没有透露太多该模型的训练细节给外界。然而,基于论文和学术界研讨中的线索,DeepSeek 率先训练出了 V3 基础大模型和 R1 大型推理模型,推理效果逼近 o1,并作为产权友好的开源模型赋能了国内产业链和全球学术研究者。

前面简要介绍了 LLM 大语言模型的历史演进,我们再来简单了解下 LLM 与深度神经网络以及算力的关系。我们输入一些文本(提示词)给LLM,LLM 通过深度神经网络生成对应的回应,看似简单的聊天对话,实际上是一个复杂的计算过程。在大模型内部,深度神经网络由许多层节点及连线构成,其中包含海量参数,这些参数就是节点之间连接线的强度(即概率数值),从而决定了输出结果,例如 V3 大模型有 61 层网络节点。当下,LLM 处理内部复杂计算主要依赖于 GPU 算力,下面是最适合 LLM 预训练和推理的英伟达 GPU 架构演进图,它代表了目前算力性能的最高水平。如 GB300 芯片能够将推理速度提升到 3 万个 token 每秒的速度。当然,它实际上进行了参数权重精度的取舍,将 FP8 精度进一步降低到 FP4 精度上取得的推理提速进展。

大语言模型与 Scaling Law

为什么 LLM 是生成式 AI 中最重要的模型形态?主要是因为它擅长对人类知识中最复杂语言知识进行复杂逻辑推理,类似于人类的“慢思考”过程。计算机科学家将大模型推理过程看作“慢思考”的观点是受到心理学家丹尼尔·卡尼曼的研究启发;卡尼曼是一位以色列裔美国认知心理学家,他将心理学研究与经济学结合起来提出行为经济学,推翻了经典的“经济人理性”假设,由此获得2002年诺贝尔经济学奖;相关理论也写入到销量过千万的畅销书《思考,快与慢》中,他提出了两种思考模型:快思考和慢思考。“快思考”是一种基于直觉的思考方式,例如我们能轻松快速识别熟人面孔、或看到路上的车辆路况作出敏捷反应,这种能力是从动物到人类演进几百万年过程中进化形成的,主要依靠直觉判断,速度很快;而“慢思考”则与语言处理相关,是人类在最近一万年的进化中才逐渐产生的能力,我们依靠它来处理复杂的数理逻辑和语言表达,例如要计算 9.11 乘以 3.28 看似简单,但人类大脑必须专注计算若干秒才能得出结果,组织和表达出复杂意思的语言句型时更是费时费脑。

AI 领域的科学家、专家和研究者们在构建以大语言模型为代表的人工智能时,认识到大语言模型产生文字输出(Tokens)的过程正是类似于这种人类的“慢思考”过程。其他如人脸识别等经典决策式 AI 模型(或叫感知式AI) 则恰如“快思考”过程。所以,LLM 大语言模型能够帮助实现复杂的业务逻辑推理,这正是它在 AI 领域中占据最重要地位的原因。(题外话,丹尼尔·卡尼曼于去年 3 月27日去世,享年 90 岁。在他去世后,国内很多读过他的书的人转发了他的文章到朋友圈等,以纪念他对心理学和经济学领域的贡献。华尔街日报最近几天又刊登了纪念他的文章。)

GPT 就是“生成式”(G)、“预训练”(P)以及“变换器”(T)的缩写。具体来说,G 代表生成式,P 代表预训练,即提前进行的训练,T 则是处理过程的转换。无论是输入一个字节、一句话还是一本书的文字序列,模型都会将其转换为下一个内容。例如,收到提示词“今天的天气不错”,模型会将其拆分为 token,token 可以是一个字、标点符号、半个字或一个词。然后通过 Transformer 架构的大模型理解这些输入 token 序列,补全生成输出 token 序列。

这个过程其实模拟了我们对语言的组织思考能力,我们对语言的组织方式取决于我们读过的书、学过的知识等。这有点像接龙游戏。AI 引擎的计费模型是以 token 为单位的。英伟达 CEO 在 GTC 大会上提到,AI 的故事全部是关于 token 的故事,AI 服务售卖的就是 token 的数量。输入和输出都会消耗算力,算力是 AI 的核心。在 AI 时代,token 是最小的计量单位,它体现了 AI 的算力。例如,最新发布的显卡能达到 30 万的 token 每秒的处理速度,这是衡量算力的一个标准。

AI 大模型的典型训练过程分为三个阶段:预训练、后训练和微调优化。预训练出的是基础模型,后训练是对预训练模型的矫正,微调优化则是通过强化学习等方式进一步提升模型的性能,使其在推理过程中能够更合理地生成语言和逻辑结果。现在认为强化学习微调过程也符合 Scaling Law规律,所以也被叫作 Test Time Scaling。

以前的大模型存在一些问题,比如在 o1 或 R1 之前,大模型虽然文字对话很流畅,但判断不了简单的数理问题,比如“9.8 和 9.11 哪个更大”。但从 o1 和 R1 开始,这些问题就不存在了。现在的大模型不仅能对话,还能处理复杂的数学题目,比如我输入初中的数学题,模型能够准确的给出一、二、三问答案。北京有些教培行业的老师甚至用北大强基计划的数学题测试 R1 模型表现,结果发现该模型能够正确解答其中 60%~70% 的题目。虽然它数理能力还没超越万里挑一的天才型学生,但实际上仍是超出绝大部分人的;而大模型的这些逻辑和推理能力足以应付日常工作中的各种业务逻辑,何况通过训练它还“储备”了远超人类个体的各种知识。虽然基础大模型在处理时效性信息方面仍然存在一些短板,但大型推理模型结合联网能力和RAG框架时,就能很好的处理此类场景。

最近两年,AI产业界经常提到的一个概念是 Scaling Law,即规模化法则,人们担心 Scaling Law 见顶。在大模型领域,通常会用更大的参数规模(也就是前面展示的那种神经网状结构),更多的数据(现在已经将互联网中公开和能买到的数据全部用完),以及更大的 GPU 算力,去推动大模型的综合能力提升。这些模型产品能够以一种接近AGI(通用人工智能)的方式服务于每一个普通人和工作者。虽然目前距离真正的通用人工智能还有一定距离,但大模型能力融入到工作和业务流程中提质、提效已经成为现实。

以 ChatGPT 的产品为例,其最新形态已经从一个简单的输入框继续迭代为能够允许用户上传附件文档进行推理处理,并且可以联网搜索处理最新时效性信息。如果一个大模型的训练数据截止到 2024 年 12 月 26 日,但到今天,它还能够通过联网搜索获取最新的知识。这种推理能力能够处理新知识,避免了过去训练时知识过期的问题。这对我们来说意味着什么呢?实际上,大模型不仅可以推理网络上的公开信息,还可以推理特定单位和企业内部的私有知识。只要不断地将文档、会议纪要等传给它,它就能基于这些内容进行推理分析,解决问题,这就是推理模型的优势技能特征。

除了大语言模型,还有用于生成图片的大模型。例如,一些设计领域需要处理图片物料,大模型可以在这方面发挥作用。文生图和文生视频是相对还不够成熟的领域,但大模型已经在这些领域已取得了一些实用型进展。



从 OpenAI 到 DeepSeek 浪潮

接下来讲到 OpenAI 的几个重要模型发布时间线。它最重要的第一个模型是 GPT-3.5,而去年发布的 o1 模型是从基础大模型向大型推理模型转变的一个关键节点。最近发布的 GPT-4.5 模型则相对没有那么的惊艳。o3 也在向推理方向发展,但它的成本非常高,所以还没有广泛推广。OpenAI年收入达到了 37 亿美元,但成本高达 60 亿美元,目前还在亏损的状态。OpenAI 的大模型也存在一些问题,例如训练成本高、推理费用高,以及对产业界相对封闭。即使是其主要投资者微软,也拿不到模型本身;大客户苹果同样无法获取模型。这些问题限制了其在全球范围内的广泛应用。

o1、R1等大型推理模型具有更好的逻辑思维及反思验证能力。如果将 GPT-3.5 到 4.5 比喻为文科生模型,那么大型推理模型更像是理科生、逻辑性的大模型。它能够演绎归纳数学过程,回答复杂问题,并通过思考、分解、反思、验证过程,将其一步步清晰地解决。这类似于人类大脑处理问题的方式,无论是工作还是生活中的问题,我们都是逐步分析解决的。因此,大型推理模型模拟了人类的群体思考过程。这也可能解释了为什么现在又强调理工科的重要性,无论是在工作中还是商业中,人们都在不断迭代自己的推理能力。

开源大模型中有三个典型模型代表:美国 Meta 发布的 LLama 模型、法国的 Mistral 模型和中国的 DeepSeek 模型。其中,Mistral 和 DeepSeek 都是基于多专家混合架构(MoE)的模型。这种架构的出现,是因为除了美国之外,其他国家可能都面临算力不足的问题。因此,他们倾向于发展出对算力需求偏低的大模型。MoE 就是一种对算力要求较低的稀疏性模型。而美国由于不缺算力,其公司更倾向于发展稠密模型。美国企业仍在堆更大算力,例如,英伟达在 GTC 2025大会上宣布,美国的四家合资公司去年购买了 130 万块 H200 卡,而今年截至 3 月,美国的四大公司已经确定购买 360 万块 B200 及更高端的卡,算力又增长数十倍。

对比基础大模型,大型推理模型的逻辑推理能力显著提升,能够进行多任务规划。

DeepSeek 大模型的特点

对标 OpenAI,DeepSeek 带来了开源大模型的创新。DeepSeek 的 V3 基础大模型和 R1 大型推理模型以其高效的推理能力和对中英文的出色处理而受到关注。这些模型不仅在复杂推理任务中表现出色,尤其在数学、编程和自然语言推理任务上,还能够通过链式思考过程展示推理步骤,便于用户理解。DeepSeek 的模型在中文表达和情感理解方面也有显著优势,能够更好地满足中文用户的需求。

以 DeepSeek-R1 为例,它在数学、编程和自然语言推理任务上表现出色,能够清晰地展示推理过程,帮助用户更好地理解问题的解决逻辑。与之相比,像 GPT-4o 这样的生成型模型虽然在日常语言任务中表现均衡,但在处理复杂逻辑推理时准确率较低。大模型的这种优势使其在专业领域应用中更具价值,例如数学竞赛、科学研究以及需要清晰思路梳理的场景。此外,大型推理模型在中文表达和情感理解方面也有独特优势,能够更好地满足中文用户的需求。

所以,当 DeepSeek 模型的一开源,且以免费方式提供 AI 对话产品时,它就迅速的获取了用户,超过 OpenAI ChatGPT 速度,创造出 7 天获得 1 亿用户的新纪录。

AI to C 与五千亿行业红利

随着生成式 AI 技术的不断发展,AI to C 的趋势正在加速普及。国民级应用如微信、百度搜索、小红书、阿里钉钉、华为手机助手等纷纷接入了 AI 推理能力,为用户提供更加智能化的服务。这些应用通过深度思考和推理,能够更好地理解用户需求,提供更加精准和个性化的搜索结果、内容推荐和服务体验。

AI 技术的普及不仅为消费者带来了便利,也为产业带来了巨大的红利。据预测,AI to B 的市场规模将在未来几年内迅速增长,带来数千亿的行业红利。这一趋势不仅体现在互联网巨头的积极布局上,也吸引了众多初创企业和传统企业的关注和加速投入。

AI to C 的应用普及和 AI to B 的产业机遇,推动整个社会的智能化转型。随着越来越多的用户和企业参与到 AI 应用和服务中,AI 的落地场景将不断拓展,从日常生活到工业生产,从娱乐到教育,AI 的影响力无处不在。这一趋势不仅体现在互联网巨头的积极布局上,也吸引了众多初创企业和传统企业的关注和投入。为了满足 AI 应用的高算力需求,芯片厂商将不断推出更强大的芯片,推动算力升级。

为了支持 AI to C 的大规模应用,国内外的云服务提供商和硬件厂商也在积极跟进。国内的阿里云、腾讯云、华为云等,以及国外的 Nvidia(英伟达)、AWS(亚马逊云)等,都积极适配 DeepSeek 的开源大模型或直接提供大模型服务。同时,一体机厂商也在不断推出适合 AI 部署的硬件解决方案,为企业的 AI 转型提供支持。

随着 AI 技术的不断发展,AI to C 应用融入生活,对普通用户的广泛触达和心智教育,To B、To G 的市场潜力也将被进一步挖掘。未来,AI 将在更多领域实现突破,为消费者和企业带来更加智能化的服务和体验。

DeepSeek + AIGC 数字人

最后,我们介绍一下七牛云这方面的一些实践。我们第一时间上线提供了的包括 DeepSeek 系列、Qwen 系列大模型的 AI 大模型推理服务(Token API),大家可以通过扫码看到我们推理产品的详情,把它配置到能下载到各种的三方 AI 聊天客户端或知识库应用里,就可以使用。我们现在对每一个新的注册用户都直接送上千万的免费额度,够大家用挺久。也上线了围绕 Token API 的多媒体生态 API,如 OCR 识图、ASR 识音、TTS 音频合成等方便开发者将推理大模型融入到自己的业务开发中。

一般来说,无论是个人用户还是企事业单位,目前的判断是:AI 推理 API 服务现阶段看起来可以满足大部分客户需求,它更易于交付,即直接使用推理 API 交付服务。直接通过云接入服务,是一种更易接入、更具性价比和更易升级维护的模式,并会不断升级到最新的模型和功能。

七牛云也上线了 DeepSeek专属 GPU 云主机,支持 DeepSeek-R1/V3 满血版全参模型和蒸馏版系列模型及 Qwen QwQ-32B 等。为进一步满足企业需求,助力客户通过 DeepSeek 等大模型推理内部数据提升运营效率,七牛云还上架了全系 DeepSeek 一体机,集成各种 GPU&CPU 算力组合、顶级开源大模型,提供本地化部署的软硬件一体交付方案。

除了聊天对话,大家也关心 DeepSeek+ 别的什么场景能发挥更大价值,如图这是我们的小程序,大家可以在微信里搜索“七牛云”,找到公众号和小程序。我们在小程序里提供了 AI 数字人的功能,数字人接入了 DeepSeek ,生成营销视频文案等功能。例如,你可以输入“愚人节”提示语,它就会生成愚人节主题的文案;输入“劳动节”,它也会生成相应内容。

这里有几个视频可以播放展示一下。这些视频展示了以真人和 3D 形象为模版的 AIGC 视频生成与 DeepSeek 文字生成相结合的企业营销视频生成。

DeepSeek 模型的文字生成和推理能力很强大,只有把它融合到不同的业务场景时,才能进一步放大它的能力效应,比如在要生成图片时,它虽然不能直接生成图片,但它显然比一般人更擅长生成文生图模型所需的提示语,那么我们就能借助它生成更好的图片;翻译、编程能力上也如此,另外在生成 PPT,生成计划、营销及其他方案也类似。随着把大语言模型和推理大模型纳入到一个个场景和业务流程中,充当知识和推理专家,就能够改善和提效相应的业务环节。

当前 AI 发展正经历关键跃迁,以 DeepSeek-R1、OpenAI-o1 为代表的具备内化的假设、反思、验证等优秀推理能力的 LLM 大型推理模型,将 AI 发展推进到智能体 AI 时代。这类新型模型使 AI Agent 迸发出远超上一代由外化的手搓式简单推理 Agent 不可比拟的发展势能。

在 GTC 2025 大会上,英伟达为我们描绘了 AI 发展的四个阶段:感知式 AI、生成式 AI、智能体 AI 以及物理世界 AI。正如我们现在提供的 DeepSeek + AIGC 数字人解决方案,正是处于从生成式 AI 向智能体 AI 演进的过程实践——智能体 AI 能够像人类一样根据任务和环境自主调整行为,而七牛云的 AI 推理服务将持续更新底层大模型和多模态模型,确保客户始终站在 AI 能力进化的最前沿。

谢谢大家!