火山引擎升级数据基础设施,打造专为Agent服务的数据底座
过去一年,随着 AI 能力的持续升级,越来越多的企业开始探索将 Agent 引入业务流程,但能真正将 Agent 嵌入组织、融入业务并产生规模化价值的企业仍是少数。卡点并不在于企业意愿,而在于支撑 Agent 真正落地的数据基础设施尚未就位。
6 月 23 日,2026 春季火山引擎 FORCE 原动力大会数据智能论坛上,火山引擎升级数据基础设施, 提出面向 Agent 时代的企业数据基础设施,将通过多模态数据处理、上下文编排与记忆沉淀,将企业数据转化为 Agent 可直接消化的 "燃料"。
面向 AI 的 Agent 数据基础设施
论坛上,火山引擎数智平台产品总监 王彦辉 表示,AI 应用正在从“回答问题型”的对话助手,走向“能真正干活”的执行任务型 Agent。
回顾数据平台的发展历程,数据库时代 主要服务交易处理,核心目标是保障业务系统稳定运行;大数据时代 则更多服务分析决策,通过数仓建设、ETL 加工和指标治理,支撑 BI、画像、推荐等场景。而在 面向 AI 的 Agent 时代,数据平台的服务对象正在发生变化——它不再只是为人提供报表和分析结果,也开始直接为模型和 Agent 提供可理解、可调用、可复用的数据能力。
当 Agent 成为数据的第一消费者,数据加工的产物也不再只是报表,而是 可以被 Token 进一步理解、调用和持续利用的“燃料”。这意味着,企业对数据基础设施的要求正在升级:不仅要能存、能算、能查,更要能让模型真正“读懂”数据,并在任务执行中稳定发挥作用。
火山引擎数智平台产品总监王彦辉发布 Agent DataLake 企业级数据基础设施解决方案
围绕这一趋势,火山引擎提出全新的数据基建概念与解决方案—— Agent DataLake,希望通过多模态数据处理、上下文编排和记忆沉淀,将企业多模态数据转化为 Agent 可直接消化的上下文资产,持续提升 Agent 在业务场景中的任务执行效果。
从整体架构看,新的数据基建定位于模型层与 Agent 应用之间,承担数据选择、上下文编排和任务增强的关键角色:向上,它为 ArkClaw、HiAgent、DataAgent 等 Agent 应用提供记忆、知识、任务画像和领域知识支撑,确保 Agent 在具体任务中能稳定调用上下文、持续沉淀经验;向下,它连接火山引擎豆包大模型,进行上下文增强和模型调用,最终支撑 Agent 稳定地发挥业务效果。
Agent DataLake 方案架构示意图
这也意味着,Agent DataLake 方案并非单一的数据存储系统,而是围绕 Agent 任务执行构建的一套数据处理与上下文管理能力。
值得注意的是,该方案还新增了对 Agent 轨迹数据 的处理能力——通过链路追踪、轨迹存储与聚合计算、Agent 评测等机制,将 Agent 每一次任务执行的过程数据沉淀下来,形成可复用的经验资产,持续优化 Agent 在业务场景中的表现,让 Agent 越用越聪明。
而要实现上述这一切,核心的技术支撑,不只在于“把数据放进来”,更在于“把数据处理好”。围绕这一目标,火山引擎发布了 企业级多模态数据处理算子服务矩阵,覆盖视频、音频、文本、图像四大数据类型,让原始数据经过算子化加工后,转化为更适合模型理解、推理和调用的高质量内容。
企业级多模态算子服务矩阵,让数据真正被 Token 消化
落地真实业务场景,企业数据早已突破过往结构化表格的边界,大量非结构化、多模态数据正在成为 AI 应用落地的关键基础。演讲现场,王彦辉以视频、文档等主流企业多模态数据为例,展示了 当前火山引擎AI数据湖LAS产品丰富的算子处理能力。
其中,视频类数据正成为企业数据资产中增长最快、处理难度也最高的类型之一。无论是营销投放中的短视频素材,还是培训、会议、直播、安防等场景沉淀下来的长视频内容,都往往具有体量大、信息密度高、人工处理成本高等特点。针对这类视频数据的生产、理解与管理需求,火山引擎提供了一系列视频类算子能力,帮助企业把“看不完、用不好”的视频资产,转化为可编辑、可理解、可检索的数据资源:
•面向 视频内容生产 场景,“视频编辑增强版算子”可以把视频的背景、主体、人物一键替换,实现“一个视频,N 种变体”,有效避免重复视频限流风险,大幅提升投放效率。在某电商营销场景下,单条视频处理效率从数天骤减至分钟级;人力成本降低 80% 以上。
•面向 视频资产理解 场景,“视频精细理解算子”可对长视频进行分镜切分、事件时间轴构建,并自动识别人物、动作、场景、字幕等多维信息。基于自然语言跨模态检索,用户可以快速定位目标画面,让海量视频资产从 “人工翻看” 进入 “即问即答” 的新阶段。在某教育场景,批改作业任务 Token 使用成本下降 50%。
除了视频,企业长期沉淀的文档资料同样承载着大量业务知识,也需要被高效解析、结构化处理并纳入 AI 应用流程:
•面向企业文档知识沉淀 场景,“PDF 解析算子”支持复杂 PDF 高保真解析,可进行版面分析、阅读顺序还原,并对表格、公式、图表等内容进行结构化提取,同时还支持逐页和整书 Markdown 输出。对于企业长期沉淀的大量报告、手册、方案和制度文档,显著降低知识入湖和知识问答建设门槛。在某媒资库构建场景下,识别精准度由 70% 提升至 95%。
算子背后,指向的是同一个目标:让企业里真实存在的数据——无论是视频、音频、文档、图像,各种形态的数据——都能以 Agent 可理解、可调用的方式流动起来。
这正是为Agent服务的数据底座价值所在 —— 它把“多模态数据→算子化→上下文与记忆→业务价值”这条链路,变成了企业的标准能力,让数据真正服务于智能体,最终服务于业务。
可以认为,Agent DataLake 能够将企业原本分散、静态、难以直接调用的数据资产,转化为 Agent 持续进化的燃料,让 Agent 更低成本、更好效果、更懂业务。
以此输出的 数据 × Token = 业务效果,将成为数据处理的新范式。
(来源:财新闻)