
如何才算“完成”一个 AI 应用?
引言:现象与误区
最近公司正在搞1024实训营,而我也有幸作为带教导师参与其中,期间也跟许多同学和助教聊到他们正在做的 AI 应用的相关问题,给我最大的感受是同学们有一个普遍的认知误区 ———— 调通了大模型接口 ≈ 完成了 AI 应用。这是一个需要澄清的关键认知偏差。
AI 应用的本质,不是技术演示,而是利用 AI 技术解决真实世界中的某个具体问题。因此,判断一个 AI 应用是否“完成”,核心标准在于:它是否达到了设计之初设定的解决特定领域问题的目标。
为何“调通模型”远远不够?
模型≠应用,大模型就像一台强大的引擎。把引擎装上车壳,不等于就造好了一辆能上路的汽车。
单纯的模型是有局限性的:
1. 知识边界:缺乏特定领域知识,在解决特定领域问题时,可能会答非所问
2. 幻觉:模型可能自信地输出错误或捏造的信息
3. 缺乏特定任务定制:通用模型不一定擅长你的特定任务,比如需要复杂的决策链路才能得到的答案
4. 可控性与未知性:如果没有特别要求输出的规则与风格,往往每次输出都飘忽不定
5. 场景复杂性:业务场景往往是复杂的,涉及多步骤,多信息源,特定逻辑和交互等。单纯调用大模型返回的文本很难满足用户需求
所以:模型只是基石,单纯靠调通大模型是无法构建一个可靠的,可用的,有价值的应用。
如何做一个有价值 AI 应用
往往有价值的 AI 应用(产品),都是瞄准某一个特定领域,解决某一个特定领域的问题,而在做 AI 应用前,需要想清楚我们的应用是要解决什么样的问题?比如一个 AIOps 的应用,他的目标是帮助运维发现线上问题,定位线上问题,解决线上问题?或者是一个智能的发布系统,智能灰度进度,及时发现问题,并快速回滚?
因此目标可以定义为 “解决” 问题的标准,AI 输出了什么样的内容才算帮助我们解决了问题,关于这个标准,我大概总结出以下几点:
1. 准确性:AI 输出的结果是否正确,幻觉率是否能降到最低
2. 有效性:AI 输出的内容,是否能够达成目标
3. 一致性:AI 是否按照我们要求输出的规格稳定输出
如何赋能模型解决问题?
往往从一个裸模型到一个有价值的产品,是需要我们做非常多工作的,这里有比较多可以用的工具/手段,比如说:
1. RAG (Retrieval-Augmented Generation):
• 检索增强生成。通过检索外部知识源的信息来辅助大模型生成更准确、相关的回答。
2. MCP / Function Calling:
• 模型调用规划/函数调用。指让大模型具备规划、决策、调用工具(API)来完成复杂任务的能力。
3. Workflow / Pipeline:
• 工作流/管道。指将多个处理步骤(如数据处理、模型调用、结果后处理)按顺序连接起来形成自动化流程。
4. Prompt Engineering:
• 提示词工程。通过精心设计输入提示(Prompt)来引导大模型产生期望的输出。
5. Context Management:
• 上下文管理。在多轮对话中有效管理和利用历史交互信息。
但这套工具箱我们并不是拿来主义,不是把所有都装备上,这个 AI 应用就是最好的,而是根据我们的需求,有选择性的,选择一个或多个,能帮助 AI 应用的工具,组合在一块。只有能达成目标的最佳工具才会被选择,甚至可能变种相应的一些技术手段,以达成我们产品的目标为导向。
比如本次实训营有一组同学做的 AI 画板,利用 AI 给画板赋能,让画板可以快速且准确得产出游戏素材,该组同学采用提示词工程 + 变种的 RAG 技术,通过比较 Embedding 历史图画和 Prompt 提示词,快速得到多张符合用户需求的图片,来改善用户体验。
结束语:从模型玩家到问题解决者
调通模型API是入门AI应用开发的第一步,值得肯定,但这只是拿到了钥匙。
真正的挑战和价值在于:如何利用AI这把钥匙,精准地打开特定领域问题的大门,并构建出一条顺畅的解决路径。 RAG、MCP、Workflow、Prompt Engineering等技术,是你工具箱里的关键利器,根据你的目标,合理的选择最合适自己的工具,并落地为有价值的解决方案。
当你不再仅仅满足于“模型有反应”,而是执着于“问题真被解决”时,你就从一个模型的调用者,成长为真正的 AI 应用构建者和问题解决者。这里也预祝本次实训营的同学们可以完成一个能真正解决问题的 AI 应用!