X绘图：我们如何让 AI 更好地融入产品

前言

我们正处于 AI 大模型落地的浪潮中。越来越多的应用都喜欢标榜“AI 赋能”、“AI 融入”。但是，很多应用和程序并没有很好的将 AI"融入"他们的应用，而只是做了"引入"，一个按钮，一个接口，一个对话框；一个简单的引入 API 确实能带来 AI 对话的能力，但是这和真正的让AI提升工作效率和提升创作的上限是有着很大的差距的。本文将从交互逻辑，AI 能力，Prompt 构建等方向入手，聚焦于我们的实习团队的尝试，思路和努力，更好的在 XBuilder 的绘图功能中引入 AI 生图从而提升用户创作能力。

一、让 AI 交互融入交互逻辑

作为前端开发者，时刻保持对用户交互逻辑的清晰认知是最为重要的事情。一切的功能都应该由用户的需求出发。我们不能为了"引入AI"这个目标，盲目的在应用里放一个按钮，放一个 API 调用的入口。AI 的能力很强，但是也很宽泛。我们所做的就是让 AI 的能力迎合用户的需求，让其真正的解决用户的痛点。

XBuilder 平台面向的用户主要是对游戏制作有热情的青少年人群。他们往往年轻，有创意，但是缺少美术的能力和技术。所以，绘图平台想要融入 AI，就必须抓住他们的重点：用户创作图像的能力较差，构建提示词的能力较弱，但是他们对AI生成结果有一定的要求。

所以，我们基于这个用户画像出发，我们的 AI 功能应该要满足用户的需求。所以，我们主要提供了 AI 素材库，AI提示词构建，AI图像生成的功能。这些功能涵盖了一个完整的用户交互逻辑链条：

用户有想创作的游戏角色 -> 用户构建提示词 -> 提示词不断完善 ->最终生成用户满意的游戏素材

根据这一交互链路，我们构建了我们的 AI 素材生成体系。

XBuilder 链接：

xbuilder.com 或者 x.qiniu.com

X绘图功能仓库地址：

github.com/goplus/builder/tree/trailhead_copilot

二、AI 模型的选择

当前主流的大语言模型（如ChatGPT、Google Gemini等）虽然在通用任务上表现卓越，但在特定场景下的适用性仍需审慎评估。以图像生成为例，我们的需求并非传统的位图（如PNG格式）生成，而是高质量的矢量图（SVG）生成，二者在技术实现与应用逻辑上存在本质区别。

尽管通用大模型在位图生成方面能力出众，但在矢量图生成这一专业领域，却没有多少评测可供参考。为此，我们针对 OpenAI GPT-4、Claude、Google Gemini 2.0 Pro 以及专业绘图模型 Recraft v3/v2、SVGIO 等进行了专项测试。结果显示，通用大模型在矢量绘图任务上明显逊于专业模型，而 Recraft 在输出质量与格式支持方面更贴合我们的需求，因此最终选定其作为主要图像生成方案。

值得反思的是，当前不少业务在技术选型时盲目追求通用大模型或对话式交互，某种程度上反映出在用户需求洞察与产品设计上的简化思维。优秀的产品应当始终以用户真实需求为核心，每一项功能的引入，都应回归到本质问题：它是否真正解决了用户的痛点？

三、Prompt 构建体系

对于AI生成效果而言，Prompt的质量是非常重要的。业界有一句俗语，"Garbage in, garbage out."。我们的产品如果要优秀的生成效果，那就必须有优秀的Prompt。

但是对我们的用户画像而言，用户自身构建提示词的能力其实是不强的。青少年儿童，特别是有创作游戏热情的儿童，我们对他们的语言描述能力是不做很高的预期的。

所以，我们必须降低用户创建提示词的门槛，同时也要在用户看不到的地方进一步的提升提示词的质量，从而让大模型得到质量更高的提示词。

3.1交互上的努力

3.1.1风格选择

对于输出的图片而言，不同的风格得到的结果是截然不同的。于是，我们用风格选择器，帮助用户选择他们更预期的风格。这样的风格选择是基于图片的，而不仅仅是文字的，这样可以显著的降低门槛。同时，风格信息对于输出预期的提升是非常显著的。

风格选择器

3.1.2提示词

我们构建了类 IDE 模式的提示词补全体系。我们预期的用户输入是简单的，基础的。对于一个 6 岁的孩子而言，他可能只能输出 1-2 个单词，你不可能指望孩子输出规范而详细的提示词。于是，我们在输入框中引入了补全体系。这个补全系统会根据用户的项目信息，结合小型大语言模型，对提示词进行强化和补全，从而在用户输入的过程动态的获取到更强大，规范，详细的提示词。

提示词补全示例

这是我们交互上的一个例子，我们可以看到，基于简单的用户输入，可以得到风格，样式，动作等多维度的提示，用户可以选择他预期的帮助，也可以继续自由输入。我们会不断地帮助用户构建他更想要的东西。

3.1.2即时图片反馈

我们维护了一个庞大的 AI 素材库，我们所有 AI 生成的照片都会保存到库中。在我们输入提示词的过程中，随着补全，也会调用即时搜索的接口。这样，用户相当于能获得文字+图片的双重反馈。一方面，用户可以根据图片的反馈修改自己的提示词，另一方面，如果用户直接选择了素材库中的结果，也就节省了一次生成图片的调用成本。

3.2 用户看不见的努力

我们在前端交互上致力于降低用户的输入门槛，但这仅是"冰山一角"。当用户的原始提示词，哪怕只是"一只猫"这样简单的短语，被传递到后端时，我们的系统会立即启动一套精密且多层次的自动化增强流程。这套流程的核心目的，就是将用户朴素、口语化的表达，翻译成AI绘图模型能够精准理解和高效执行的"专业指令"。

这个过程主要分为三个阶段：智能分析、分层优化和上下文融合。

第一步：智能分析与"诊断"

系统首先会对用户输入的原始提示词进行一次快速的"诊断"。我们利用AI对提示词进行多维度分析，精准地理解其核心意图：

内容类型分析(Type)：判断用户想画的是动物、人物、场景还是其他具体事物。这决定了后续增强的基础方向。
情感风格分析(Emotion)：解析用户可能蕴含的情感倾向，比如是想要"可爱"的风格，还是"炫酷"的风格。
复杂度分析(Complexity)：评估用户描述的复杂程度。一个词的提示词（如"龙"）和一句话的提示词（如"一条在城堡上空喷火的龙"）所需要的增强策略是截然不同的。

这次诊断为后续的"对症下药"提供了精准的依据，确保增强的方向符合用户的初步设想。

第二步：四层"处方"式优化

在完成分析后，系统会像开具处方一样，对提示词进行四层叠加式的强化，每一层都为最终的生成效果添砖加瓦：

主题增强 (Theme Enhancement)：首先，结合用户在界面上选择的视觉风格（如"卡通风"），系统会将风格转化为具体的、描述性的语言。例如，原始的"一只小猫"会在这里被扩充为"一只小猫，采用卡通风格，色彩鲜艳丰富，造型可爱有趣"。
质量增强 (Quality Enhancement)：接着，根据第一步分析出的复杂度，系统会自动附加相应的质量要求。对于简单的提示词，我们会加上"高质量矢量图，线条清晰"；而对于复杂的创作，则会提升至"精致细节，专业插画，复杂设计"等专业级别要求，确保输出结果的下限。
样式增强 (Style Enhancement)：然后，依据内容类型，系统会注入更具象的风格描述。如果画的是"动物"，就会补充"造型可爱友好"；如果画的是"场景"，则会强调"氛围感强，环境细节丰富"，让生成的内容更具表现力。
技术要求 (Technical Requirements)：最后，也是至关重要的一步，我们会附加针对矢量图（SVG）格式的技术性指令，如"SVG矢量格式，几何形状简单，元素分离清晰，适合游戏资源"。这确保了AI生成的不仅是一张"图"，更是一个符合我们平台技术规范、便于用户后续编辑和使用的"资源"。

经过这四层优化，一个原本简单的用户输入已经被构建成一个结构完整、细节丰富、兼具艺术性与技术性的高质量 Prompt。

第三步：融合项目上下文的"个性化"

我们的增强不止于此。为了让AI生成的内容能更好地服务于用户的整体创作，系统还会智能提取用户当前项目中的关键信息（如项目名称、简介中的关键词）。

例如，如果用户的项目是一个关于"森林冒险"的游戏，当他输入"背景图片"时，系统会自动将项目关键词融入提示词，最终形成如"背景图片,相关元素: 森林, 冒险, 魔法, 精灵,城堡"这样的指令。这使得AI的每一次生成都与用户的创作主题紧密相连，成为其游戏世界的一部分，而非一次孤立的绘图。

总之，在用户看不见的后端，我们通过一套自动化的分析、优化和融合流程，为用户的创意搭建了一座坚实的桥梁。这座桥梁跨越了从"朴素想法"到"专业指令"的鸿沟，让即便是毫无美术和AI使用经验的青少年，也能轻松驾驭强大的AI生产力，将心中的奇思妙想变为高质量的游戏素材。

这正是我们将AI"融入"产品，而非简单"引入"的核心体现。

四、总结与展望

回顾我们在 XBuilder 绘图功能中融合 AI 的探索历程，我们深刻地体会到，AI与产品的深度融合，绝非简单地在界面上增加一个功能按钮，而是要将AI能力作为一种底层支持，无缝地嵌入到用户自然创作的每一个环节中。

我们的核心思路，是构建一套从前端交互到后端赋能的完整闭环。在用户看得见的地方，我们通过风格选择器、IDE 式的提示词补全和即时图片反馈等交互设计，最大限度地降低了青少年用户的创作门槛，引导他们更清晰地表达自己的创意。而在用户看不见的地方，我们通过智能分析、多层优化和上下文融合的自动化 Prompt 增强体系，将用户最朴素的想法"翻译"和"拔高"为专业级的创作指令，确保了最终输出的质量和相关性。

这套"表里结合"的方案，让我们成功地将强大的 AI 生图能力，转化为了用户手中易于驾驭的创作工具。它解决了我们目标用户"有创意，但缺乏实现能力"的核心痛点，真正做到了让技术为人服务。

展望未来，尽管 AI 技术持续演进，我们始终坚持以用户为中心的产品哲学。在 AI 时代，优秀的设计应让复杂技术退居幕后，使用户的创意与思想成为真正的主角。未来的挑战将不再局限于提升模型能力或叠加功能，而更在于深入理解用户需求，以更自然、无感的方式将 AI 转化为用户创造力的延伸。因此，最具价值的 AI 产品，必是那些真正以人为本、将技术融于无形体验的产品，这也是我们团队持续努力的方向。