今年火出圈的 AIGC(AI Generated Content / 人工智能技术生成内容),其实早在上世纪五十年代就已出现,但受限于技术,仅能小范围地实验和应用。半个多世纪后的今天,算法、算力、数据三驾马车共同发力,正式拉开了 AIGC 元年的帷幕。

 深度学习算法不断发展,GPU、CPU 等算力设备日益精进,互联网带来可供训练的海量数据,算法、算力、数据的共振,为 AIGC 带来前所未有的突破。存储作为 IT 基础设施中的重要一环,本质是数据服务。AIGC 作为一项尖端科技正迎来全面商业化落地部署,为各行业发展带来了机遇,也对 IT 基础设施的支撑提出了挑战。

 在实际项目中,七牛云对 AIGC 业务流程进行了梳理。本文将按照流程顺序,从模型训练到应用推理,为大家详解七牛云 Kodo 如何应对每个阶段的存储挑战。

 

模型训练阶段

收集、预处理、训练

数据收集阶段,需要能够方便地将大规模(PB 级)的开源数据集、已有第三方数据集,各种非结构化数据或者大数据体系数据,接入统一存储底座。不同处理环节数据可以自由流动,不需要拷贝迁移,以降低存储成本,节约处理时间。

七牛云存储 Kodo 提供灵活的数据迁移能力以及多种存储协议访问互通能力,打破数据孤岛,方便各种数据信息流通。七牛云存储底层纠删码技术,以低成本方式提供 11 个 9 的设计可靠性支持。

 对象存储支持不同存储类型和完整生命周期管理,深度归档实现存储成本最小化,从而在数据增长的情况下,能够持续降低 TCO。

在数据预处理阶段,七牛云支持多媒体处理及向量数据库,可以完成清洗、去重、格式转换、数据集增强等处理,提高模型训练阶段效率。

七牛云对象存储协议兼容 AWS S3 协议,高效支持向量数据库(如目前业界火热的开源向量数据库 Milvus)运行。七牛云智能多媒体数据处理能力,提供了丰富的音视频处理 、图片处理 、文件处理等能力,支持格式转换处理。在数据量较少、样本不均衡、难以覆盖全部场景的情况下,可通过对数据增强(Data Augmentation)能力,使模型学习获得较好的泛化性能。

数据预处理之后,大模型训练阶段需要极高的算力,算力越大,训练速度越快,综合成本越优。训练过程中,需要对数据进行读取和写入,将存储性能和算力形成匹配。七牛云存储高性能文件存储 KodoFS,在模型训练的数据加载(海量小文件、高 IO 读等特征)、CheckPoint 中间结果保存等阶段提供高性能存储服务。KodoFS 是可扩展的共享文件存储服务,支持多级缓存、访问速度加速,用户可以使用标准操作系统挂载命令,来挂载文件系统。

 

应用推理阶段

应用落地多、记忆力需求、审核和管理数据

随着标注数据累积、技术架构完善,内容行业对丰富度、个性化的要求越来越高,AIGC 行业被推向前台。预测在未来 2-3 年间,AIGC 的初创公司和商业落地案例会持续增加。根据 Gartner 预测,在未来 2-5 年内,生成式 AI 将实现规模化应用;到 2025 年,AI 生成数据将从如今的 1% 提高到 10%,AIGC 正在被广泛地运用在文字、图像、视频、音频、游戏以及数字人上。

在大模型应用中,不断涌现出 B 端对专用数据的需求、C 端对个性化与自动化的需求,大模型的记忆功能亦成为刚性需求。在无记忆交互中,世界知识和语义理解被压缩为静态参数,模型不会随着交互记住用户的聊天喜好,也无法调用额外知识信息来辅助判断。因此,模型只能根据历史训练数据回答问题,并且经常产生幻觉,给出与事实相悖的答案。一次模型训练需要高昂的成本,而随着数据体量的爆炸,难以将所有数据应用到大模型里,比如 ChatGPT 是一个相当高效的压缩编码方式,但它并不是无损压缩,并不能拥有所有知识,这个过程必然带来熵减和信息损失。如果把所有信息都编码到神经网络里面,那么神经网络的参数规模将会巨大无比、臃肿冗杂,从而导致运行缓慢。

 数据不能全放到模型里,这意味着它需要外部的存储,进入存算分离阶段。当模型需要记忆大量的聊天记录或行业知识库时,可将其储存在向量数据库中,后续在提问时将问题向量化,送入向量数据库匹配相似的语料作为 Prompt。向量数据库通过提供记忆能力,使 Prompt 更精简和精准,实现结果的准确度提升。

 AIGC 应用落地,需要国家安全合规监督作为基础。《生成式人工智能服务管理暂行办法》已经自 2023 年 5 月 23 日由国家互联网信息办公室会议审议通过,并经国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局同意,自 2023 年 8 月 15 日起施行。《办法》明确了促进生成式人工智能技术发展的具体措施,AIGC 海量的生成数据需要纳入监管审核范围。七牛云智能多媒体内容审核,基于海量数据深度学习,对媒体内容实现智能审核、智能识别。所有对象存储直接关联使用,无需开发,可以在 AIGC 的输入和输出环节进行智能审核,帮助客户更好地规避风险,让客户关注业务发展。

 涵盖模型训练阶段、推理应用阶段,七牛云存储实现全生命周期的数据存储与管理,提供完备的解决方案。七牛云存储 Kodo for AIGC 很好地做到了高性能和低成本两个目标的兼顾,为基于海量数据的 AI 训练提供存储与管理的坚实数据底座。