扫二维码与商务沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
在 AI Native(人工智能原生)时代,广告营销平台经历了根本性的变革,这些变化不仅提升了广告的效率和精准度,还重塑了广告行业的整体运作方式。其中,强大的广告营销智能体是下一代商业广告平台面向客户交付商业价值的首要载体。进一步,生成式 AI 又是广告营销智能体的内核及灵魂,真正达成让客户放开说、简单用、都搞定的极致体验。
我们眼中的智能体,应具备听得懂、主动规划、执行能力强、人格化回答 4 大核心能力。智能体的底层逻辑抽象如下:
1. 听得懂:听得懂自然语言描述的用户请求 query,根据支持的句式,准确提取出全部词槽,并翻译成机器语言。
query:用户的每句话称为 query。比如 “我的账户今天哪个文案转化率最高”,“转化量为啥下降了”。
句式:MRD 梳理出的句式集合,比如 “我的方案要增加产品描述”。
词槽:通过句式解析出的关键信息,比如 “文案” “点击率” “最高” 。
机器语言:业务系统不支持自然语言请求,每个词槽都需要映射业务系统中的参数变量。比如 “点击率” 翻译为 “ctr”。
2. 主动规划:结合长期记忆和领域知识,通过大模型按照期望逻辑推理灵活编排执行。
期望逻辑:提示词里面会给 LLM 一些 fewshot 指定逻辑分支,帮助 LLM 完成正确推理。比如,准确找出分析对象和指标。
灵活编排:综合考虑用户多轮的 token(按照词槽的填充情况),结合场景,最大程度灵活编排,非剧本化。
3. 执行能力强:能联动大量的业务系统,提供丰富的功能集合来执行复杂的操作。丰富的功能集合是指调用大量的业务系统功能和强大的数据检索能力。
4. 人格化回答:自然语言拟人化回应,并且能够呈现出的丰富多样的交互形态。拟人化回应是指精准的回应用户,而非固化呆板甚至答非所问。
大模型技术在商业广告平台的主要应用场景有两大类:
1. 自然语言交互控制 LGUI:通过自然语言交互完成复杂的业务功能,提升长尾功能利用率,降低用户使用门槛。依赖 LLM 的理解、记忆能力。
2. 通过分析推理完成问题诊断解决:通过 LLM 的推理实现对复杂业务问题的拆解,分步求解并最终得出结果。依赖大模型的理解、逻辑、记忆能力。
以上场景都不是单一的 LLM 交互完成任务,需要更为复杂的 Agent 技术来达成。
智能体(Agent)技术在 2023 年之前,更多是强化学习的研究概念,随着大语言模型的兴起,被重新定义:LLM Agent=LLM + 记忆 + 规划 + 工具调用。
△Agent 系统原理
△LLM Agent 技术进化线路
到了 2023 年后半期,多智能体(Multi-Agents)系统逐渐成为了业界主流。在多智能体系统中,个体智能体评估其他智能体的需求和能力,并寻求与他们的协作行动和信息共享。这种方法可以提高任务效率、改进集体决策、解决单个智能体无法独立解决的复杂现实问题,最终实现协同互补。
在商业广告平台使用 LLM Agent 技术进行系统重构时,遇到下列技术挑战。
1.【听得懂】如何精准解析场景包含的全部客户需求,做到槽位不丢、填槽正确和高效是一个很大的技术挑战。
LLM 存在幻觉,无法稳定返回正确答案。比如:同一个 prompt 两次请求返回不一致。
LLM 多步推理正确率低,平响高。
2.【主动规划】Agent 自主规划解决实际问题比例非常低,容易陷入死循环。
LLM 对多个逻辑分支的推理错误率极高。类似于 AutoGPT 等 Autonomous Agent 产品 demo 看似惊艳,但是对于抽象复杂的问题,有效解决比例不到 10%(让 AI 自我规划容易产生死循环,或者会出现一步走错,步步走错的问题)。
解决现实问题需大量业务知识,很难将这些全部输入到 Prompt 中,梳理业务也很困难,另外 LLM 的上下文窗口非常有限。
3.【执行能力】业务系统接口层次不齐,注释不全、不清晰、不准确。如何能被 LLM 理解正确使用业务系统,是一个非常有挑战性的问题。
效果平台 API 5000+,业务系统数据表有 360+、涉及字段 5k+,但 LLM 的上下文窗口非常有限,很难将这些全部输入到 Prompt 中。
人工编写 Prompt function call,工作量惊人。业务变更就需调整和优化 Prompt,维护难度极大。
4.【人格化回答】业务系统输出是结构化文本,如何将它们翻译回自然语言,并根据不同的返回展现不同的交互,是个棘手的问题。
人格化回答需了解业务知识,否则 LLM 无法完全准确理解返回的结构化信息。
大量业务 fewshot,会引发 LLM 多步逻辑推理,导致回答卡顿、用户体验极差。
大模型尤其是文心一言技术,它的变化和演进速度是惊人的,需要把这种变化考虑到业务和产品发展路径上去,拥抱变化,不断用最新的 LLM 技术革新。
在线商业系统可用性要求是 99.99%。轻舸上线初期,多步推理准确率只有 52%,无法满足生产环境要求。轻舸初期架构通过规则为主、模型为辅 (占比 10%-) 的方式构建 LUI 系统,模型只用于闲聊或兜底。但是这种 LUI 系统 query 解析准确率低,交互固化呆板,客户体验比较差,对高阶功能难以支持。
文心大模型 4.0 发布后,轻舸率先在 GBI 智能体试水,发现文心大模型 4.0 准确率能够达到生产环境要求。虽然仍然存在幻觉、推理更慢(耗时高于文心大模型 3.5)、自主规划解决抽象复杂问题比例低 (不到 10%) 等问题,但是配合一个更加先进的技术架构是能充分发挥文心大模型 4.0 先进性的。
在商业广告平台落地场景中,我们采用了基于文心大模型 4.0 的多智能体架构,支持客户趋于无限的自然语言表达,彻底放弃剧本编排,多槽位指令解析准确率、平响达到成熟系统的标准(准确率达到 98.5%,平响只有 1.5s,95 分位值 3.3s),在智能助手、JarvisBot、销售 Bot 均成功落地,并取得显著的收益。
该架构有三个核心技术:
1. 模型层采用 “大小模型协同” 架构,大模型 query 尽量走长期记忆,解决【听不懂】和【问答卡顿呆板】的问题。
有些小任务不需要大模型,小模型不用 1s,效果还更稳定。
必须通过大模型处理的 query,对查询结果长期记忆。长期记忆可以通过离线处理来预热、填充和修正。持续一段时间后,这些请求全部走长期记忆,保证了高效准确。
2. 基于领域 SOP 的多智能体协作,解决【无法自主规划】和【执行能力弱】的问题。
实际业务问题非常复杂,直接通过大模型自主规划基本无解。类似人类解决问题 “分而治之”,我们将一个大任务拆解为多个子任务,并将各个子任务交给领域专家去解决。
基于企业 SOP,将复杂问题拆解给多个智能体协作解决,有效降低了大模型的推理难度,从而达到了生产环境要求的响应速度和稳定性。标准操作程序(SOPs)编码作为智能体 Prompt,指导大模型按照结构化流程工作并协调智能体各个环节,允许具有领域专长的智能体验证输出并减少复合错误,有效避免大模型的幻觉。
3. 利用长期记忆和自学习策略优化数据飞轮,解决【无法自主规划】,驱动客户增量表达。
建设完整的动态规划机制,允许智能体局部试错、回溯,强化 Agent 的生成质量。
建设长期记忆 + Self-Learning 结合的长效机制,使得 Agent 因为长期记忆的积累和自学习策略越用越强。
△智能体架构进化
商业广告平台智能体应用架构如下:
整体架构包含五个方面:
1. 应用层:基于 SOP 组装多个垂直领域的 Vertical Agent 实现多智能体应用。包含轻舸智能体、智能助手、JarvisBot 等。
标准操作程序(SOPs)编码:作为智能体 Prompt,指导 LLM 按照结构化流程工作并协调智能体各个环节,提供具有领域专长的智能体验证输出并减少复合错误。
2. 智能体层:Agent Framework 基础设施、垂直领域的 Vertical Agent、基于 SOPs 的 Multi-Agents 协作。
Agent Framework 基础设施:提供构建 agent 的基础部件和 AgentWorkflow 设计和执行工具。业务开发者能够基于工作流很快的设计出高质量可靠的智能体,达到 LLM+P 的效果。前面提过 Autonomous agent 并不可靠,因为其可控性很差。而提高可控性最好的方式是去帮 AI 设计 workflow,把规划职责部分转移给业务开发人员。
LLM+P 方法论:Empowering Large Language Models with Optimal Planning Proficiency 论文中提出的一种任务解决方法,通过将 LLM 和规划(Planning)进行结合, 通过使用自然语言来描述任务规划,进一步生成解决方案,从而推动问题的解决。
垂直领域 Vertical Agent:基于对业务理解产生了一大批细分领域的 Vertical Agent。比如意图识别智能体、投放智能体、GBI 智能体等,能够满足细分领域智能化需求。这类智能体具备一定的类人格特征,它能够完成业务工作流指定的各个步骤,并在某些环节部分决策,具有长期记忆。
基于 SOPs 的 Multi-Agents 协作:Agent 间通过自然语言描述的 SOP 来分工合作实现复杂的业务应用。一个用户的 query 到来后,Director 智能体会解读 SOP 编排不同的 Agent 参与实现复杂的业务需求。Agent 间的跳转可靠性通过会话状态机来保证。会话状态机维护当前会话每一句话的意图和状态,实时判断是否满足跳转条件,使应用的答复更加的灵活智能。
3. 模型层:提供大模型、小模型和一系列模型使用配套工具。
大模型:提供一系列标准模型;提供训练模型的基础设施,包括 LLMs 预训练和 SFT、数据集等。
小模型:可以使用厂内 EasyDL/BML 平台,也可以使用面向 NLP 开发者的开源工具包 JioNLP 等。小模型不存在幻觉和平响高问题,但是数据构造和训练成本开销仍然不少。模型的挑选和使用对非 AI 的业务同学来说也需要一定的学习成本。
配套工具:基于业务特点,封装一系列自动化工具,方便完全没有 AI 背景的业务 rd 都可以快速的上手模型训练、微调、评估等。
4. 记忆层:向量数据和长期记忆全部存储在 BaikalDB。
BaikalDB 商业自研的分布式数据库系统,支撑了整个广告库的海量物料存储和复杂的业务查询,为解决 LLM 应用的向量需求,BaikalDB 通过内置向量索引方式实现向量数据的存储和检索,同时还支持全文检索,一套系统支持结构化检索、全文检索、向量检索等丰富的检索能力,综合满足 LLM 应用的各种记忆存储和检索需求,有效简化智能体和 RAG 的实现。
向量数据:自然语言表达的用户请求通过向量检索匹配到最相近的意图、场景或知识语料等,填充 LLM Prompt 的 context,让 LLM 的回答位于最新的事实数据之上,保证意图识别和问答等的准确率,“基于事实” 地约束模型,缓解幻觉问题。
长期记忆:对模型交互产生的一系列记忆,进行长期保存和管理。还会通过离线模型不断的填充和修正、清理。数据飞轮运转一段时间后,结合向量相似性检索,能够保证在线大模型的请求全部走长期记忆,有效解决了大模型的延时高、资源开销贵和幻觉等问题。
5. 数据工具集:针对智能体应用打造了一系列数据评估、测试、标注的提效工具集。
Prompt 调优平台:工程效能部建设的 iEvalue 等工具,提供 Prompt 开发调试和大模型的效果评估能力,尤其方便对文心千帆和其他开源模型的不同版本效果评估。
流量自动化录制和回放:如果利用传统的人工测试回归的方式成本非常高昂,基于 java-agent 探针技术的自动化流量录制和回放工具完美解决该问题。
多模型自动化标注:基于多个模型和历史正负例数据,对轻舸系统的客户 QA 进行准召评估,优质数据用于优化领域模型,并产出整体准召评估报告。
轻舸 GBI 智能体是业界首个广告营销领域生成式 BI 产品,用户能够通过自然语言智能分析广告数据,指定任意时间格式、任意指标 top 类排序、人群定向条件、多指标筛选叠加等复杂计算。还能结合业务 workflow 计算之后进一步涌现解读报告数据并给出诊断优化建议。
主体流程包括:
GBI 智能体借助洞察工作流通过 LLM 拆解出某个 token 的解析步骤,然后分发成多个子任务并行处理。
各个子任务依赖不同的小模型或者文心 4.0 、文心 3.5 等大模型。对于大模型尽量走长期记忆,如果记忆没有检索到再走大模型。
整体结果输出需要一个校验模型进行复合校验,拦截和修正有问题的结果。
JarvisBot 通过全流程自然语言交互和 LLM 推理诊断处理两项关键技术,多 AI 智能体实现协作将专家经验内化,大幅降低使用门槛,通过大模型来显著提升故障处理和根因定位、架构优化的效率。
△一次线上问题的自动化诊断处理过程
主体流程包括:
Director 智能体(DirectorAgent)根据用户的指令意图识别后分类对应 SOP 场景,组装 Agents 执行流。比如上述流程编排了诊断智能体先诊断,操作智能体后操作的智能体执行流。
诊断智能体(DiagnisisAgent)通过 LLMs 去拆解 SOP 诊断步骤为 Actions,执行完 Actions 后发布优化建议到消息总线中去,等待操作智能体获取。
操作智能体(OpsAgent)检索对应状态的 AgentWorkflow 工作流,每个 Action 应对为一个状态节点,根据用户反馈操作止损,最后返回止损结果给用户。
从业务应用层面的轻舸智能体,到工程运维层面的 JarvisBot,生成式 AI 在业务与工程两个层面均有显著受益。
【轻舸智能系统】打造全球首个 AI Native 营销平台 “轻舸”
轻舸带来增量消费:“轻舸 + 生成式召回” 相比于传统 “关键词广告 + 生成式召回”,能够为整体带来更多的消费增量,也给客户带来更多新增转化。
LUI 识别回答更准确更快:指令驱动准确率从 85% 提升到 96%。打造业界首个广告营销领域 GBI 产品,支持广告主通过自然语言进行任意时间、top 类排序、定向筛选、多指标叠加筛选等复杂计算,挖掘用户深层次需求并诊断问题。
AI 重构效率大幅提升:轻舸智能体支持既定几种句式(前端 + 后端)人力从 3PD 降低到 1PD-。借助 Agent Workflow 和前端智能体组件,从每次上线只支持既定几种句式,升级到单个场景整批表达。前端和后端全方位智能化革新,支持智能体涌现带来的泛化、不确定、全新的 AI 产品形态。
【JarvisBot】利用 LGUI+AIOps 打造了微服务治理的新范式
智能运维和故障处理:智能诊断利用 LLM 分析 PaaS 环境、微服务日志和 Tracing 等根因定位,单次异常定位时间从 30m + 骤降为 1m-;智能问答通过 LLM 进行文档自动总结和回复,单次节省用户定位耗时 10min-。
对话式全流程智能操作:审批利用 LLM 结合如流工作卡自动化串联审批流程,单次等待从 7PD 骤减为 1h-;机器人将上线操作主动通知用户,单次节省等待耗时 5 分钟。
智能流量录制和回放:利用大语言模型和微服务治理生态工具,将单个应用自动化回归环境建设成本从 7PD 降低到 1h-,单接口测试节约时间 1 小时。
在整个技术架构的演变过程中,在不断拥抱新 LLM 技术的同时,我们在实践上也有一些自己的思考和总结:
1.LLM 的幻觉问题:LLM 的幻觉问题在生成式场景是一种优势,但在 LUI 场景的错误推理是一种劣势,而且 LLM 对逻辑分支较多的推理耗时长、幻觉大,无法形成 LUI 场景的低延迟可靠交互,因此需要借助更多的辅助手段,降低 LLM 处理问题的难度。不要寄希望 LLM 一次性解决问题,需要拆解具体的子任务来多步执行,而不是浪费时间在复杂的 Prompt 调优上。
2. 综合的向量数据库:向量检索是 LLM 应用记忆能力的核心需求,同时在应用场景,记忆需要多维度的能力,因此功能特别单一的向量数据库在实际使用中难以使用,因此我们很早就发现 AI 应用真正需要的是同时具备向量检索、全文检索、结构化检索的记忆能力,通过调研开源向量数据库,我们判断向量应该是数据库的一种特殊索引,且可以融入数据库的查询环节,为此我们在自研的 BaikalDB 基础仅花费 2 个月时间就完成了向量检索能力的补齐,AI 应用仅需要通过 sql 就可以完成向量存储和检索的功能。
随着 AI 技术的不断发展和完善,多模态 / 跨模态等大模型的兴起,我们可以预期生成式 AI 将在未来的广告营销领域扮演更加重要的角色,带来更深层次的变革和创新。以上是商业广告平台研发团队在智能体技术的探索,欢迎大家一起交流。
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流