经典案例

  • 首页
  • 经典案例
  • 提升 Salesforce Einstein 代码生成模型性能的亚马逊 SageMaker 机器学习

提升 Salesforce Einstein 代码生成模型性能的亚马逊 SageMaker 机器学习

  • 2026-01-27 14:17:30
  • 5

提升 Salesforce Einstein 代码生成模型性能的 Amazon SageMaker 解决方案

关键要点

Salesforce Einstein AI 平台团队通过 Amazon SageMaker 提高了代码生成模型的延迟和吞吐量。SageMaker 提供了多种优化功能,如动态批处理和高端 GPU 支持,满足了 Salesforce 的需求。经过优化后,代码生成模型的吞吐量提高超过 6500,显著提升了性能和效率。

这篇文章是 Salesforce 和 AWS 的合作成果,并在 Salesforce 工程博客 和 AWS 机器学习博客上交叉发布。

Salesforce Inc 是一家美国基于云的软件公司,总部位于加利福尼亚州旧金山。它提供以客户关系管理CRM为重点的应用软件,涉及销售、客户服务、营销自动化、电子商务、分析和应用程序开发等领域。Salesforce 正致力于实现业务的人工智能AGI,增强其旗舰软件即服务SaaSCRM 的预测和生成能力,利用人工智能AI来实现智能自动化。

Salesforce Einstein 是一套 AI 技术,集成于 Salesforce 的客户成功平台中,帮助企业提升生产力和客户参与度。Einstein 拥有超过 60 项功能,根据不同的价格点分为四大类:机器学习ML、自然语言处理NLP、计算机视觉和自动语音识别。Einstein 将先进的 AI 功能引入销售、服务、营销等领域,使公司能够提供更个性化和预测性的客户体验。Einstein 还具有开箱即用的 AI 功能,例如在 Sales Cloud 中生成销售邮件,在 Service Cloud 中生成服务回复。它们还提供像 Copilot、Prompt 和 Model Builder 等工具,这些工具允许组织构建自定义 AI 功能并将其推广给用户。

Salesforce Einstein AI 平台团队负责开发 Einstein 应用程序。他们致力于提高 AI 模型的性能和能力,特别关注与 Einstein 产品相关的大型语言模型LLM。这些模型旨在提供先进的 NLP 功能以适应多种业务应用。他们的使命是通过整合最新的技术方案并与领先的技术供应商合作,包括开源社区和公共云服务例如 AWS,不断改进这些 LLM 和 AI 模型,从而确保 Salesforce 客户享有最先进的 AI 技术。

在这篇文章中,我们将分享 Salesforce Einstein AI 平台团队如何使用 Amazon SageMaker 来提升其代码生成 LLM 的延迟和吞吐量。

LLM 托管的挑战

2023 年初,团队开始探索托管 CodeGen 的解决方案,这是 Salesforce 自有的开源 LLM,用于代码理解和代码生成。CodeGen 模型允许用户将自然语言如英语翻译成编程语言如 Python。由于他们已经在使用 AWS 为其较小的预测模型进行推理,他们希望将 Einstein 平台扩展到托管 CodeGen。Salesforce 开发了一组 CodeGen 模型Inline 用于自动代码补全,BlockGen 用于代码块生成,FlowGPT 用于流程生成,专门调校以适应 Apex 编程语言。Salesforce Apex 是一种经过认证的框架,用于在 Salesforce 的 CRM 功能之上构建 SaaS 应用。他们需要一个能够安全托管模型并处理大量推理请求以及多个并发请求的解决方案,同时需要满足其共助应用EinsteinGPT for Developers的吞吐量和延迟要求。EinsteinGPT for Developers 通过创造智能 Apex 来简化开发的开始,用户可以通过扫描代码漏洞和实时代码建议来加快编码任务。

Einstein 团队对各种工具和服务进行了全面评估,包括开源选项和付费解决方案。在评估这些选项后,他们发现 SageMaker 提供了最佳的 GPU 访问、可扩展性、灵活性和性能优化,尤其在解决他们的延迟和吞吐量挑战时表现出色。

为什么 Salesforce Einstein 选择 SageMaker

SageMaker 提供了多个关键特性,有助于满足 Salesforce 的需求:

特性描述多个服务引擎SageMaker 包括专用深度学习容器DLC、库和工具,支持模型并行和大型模型推理LMI容器。高级批处理策略SageMaker LMI 允许客户通过批处理来优化 LLM 的性能。高效的路由策略SageMaker 默认使用随机路由策略,支持最低未完成请求 (LOR) 策略以优化请求路由。访问高端 GPUSageMaker 提供对顶级 GPU 实例的访问,非常适合高效运行 LLM。快速迭代与部署使用 SageMaker 笔记本快速测试和部署更改,缩短整体开发周期,间接改善延迟。

这些特性协同作用,提高了 LLM 的性能,降低了延迟,提升了吞吐量,使 Amazon SageMaker 成为管理和部署大规模机器学习模型的强大解决方案。

使用 SageMaker LMI 使得 NVIDIA 的 FasterTransformer 库为 CodeGen 的模型性能优化提供了蓝图。当团队最初在 Amazon Elastic Compute Cloud (Amazon EC2) 上部署 CodeGen 25一个 7B 参数模型时,模型在推理时的表现不佳。最初,对于代码块生成任务,它每分钟只能处理六个请求,而每个请求的处理时间超过 30 秒,效率和可扩展性不佳。然而,在使用 SageMaker FasterTransformer LMI 笔记本并参考 SageMaker 提供的高级指南以理解如何优化不同的端点参数后,模型表现得到了显著改善。现在,系统每分钟处理约 400 个请求,延迟降至约 7 秒每个请求约 512 个标记。这代表着优化后的吞吐量提升超过 6500。这项改进标志着一个重大突破,显示 SageMaker 的能力在优化 LLM 吞吐量和降低成本方面发挥了关键作用。FasterTransformer 后端已被 NVIDIA 停用,团队正在迁移到 TensorRT (TRTLLM) LMI。

为了评估 LLM 的性能,Einstein 团队专注于两个关键指标:

吞吐量:通过 LLM 每秒生成的标记数来衡量。延迟:由生成这些标记所需的时间决定。

进行广泛的性能测试和基准测试以追踪这些指标。在使用 SageMaker 之前,CodeGen 模型的每秒标记生成率较低且延迟较高。经过 SageMaker 优化后,团队观察到了在吞吐量和延迟方面的显著改善。

新挑战与机遇

团队在整合 SageMaker 时面临的主要挑战是增强平台以包含其项目所需的特定功能。例如,他们需要 NVIDIA 的 FasterTransformer 额外功能以优化模型性能。通过与 SageMaker 团队的有效合作,他们成功集成了这种先前未提供的支持。

此外,团队还识别出通过在单个 GPU 实例上托管多个 LLM 来提高资源效率的机会。他们的反馈帮助开发了新推理组件,允许 Salesforce 和其他 SageMaker 用户更有效地利用 GPU 资源。这些增强功能对于满足 Salesforce 的特定需求至关重要。

关键启示

团队从未来项目在 SageMaker 中优化模型的过程中得出了以下关键教训:

迅猛兔加速器正版及时更新:与最新的推理引擎和优化技术保持同步至关重要,因为这些进展对模型优化有重大影响。定制优化策略:模型特定的优化策略如批处理和量化需要仔细处理和协调。实施高效的模型托管:优化有限的 GPU 资源分配以控制费用,利用虚拟化技术在单个 GPU 上托管多个模型,降低成本。跟上创新步伐:模型推理领域迅速发展,利用像 Amazon SageMaker JumpStart 和 Amazon Bedrock 这样的新技术制定和整合策略至关重要。

结论

在这篇文章中,我们分享了 Salesforce Einstein AI 平台团队如何利用 SageMaker 提升代码生成 LLM 的延迟与吞吐量,并在优化后吞吐量提升超过 6500。

想要在 SageMaker 上托管您自己的 LLM 吗?要开始,请查看这篇 指南。

关于作者

Pawan Agarwal 是 Salesforce 的高级软件工程总监。他负责生成和预测 AI 的相关工作,专注于推动 Salesforce Einstein 应用程序的推理、训练、微调和笔记本技术。

Rielah De Jesus 是 AWS 的首席解决方案架构师,成功帮助华盛顿特区、马里兰州和弗吉尼亚州的企业客户迁移到云端。在目前的角色中,她充当客户的倡导者和技术顾问,专注于帮助像 Salesforce 这样的组织在 AWS 平台上取得成功。她还是女性信息技术领域的坚定支持者,并对利用技术和数据创造性地解决日常挑战充满激情。

提升 Salesforce Einstein 代码生成模型性能的亚马逊 SageMaker 机器学习

加载评论


发表评论

提交
迅猛兔加速器正版

迅猛兔官方网站提供全球连线服务,实现一键速度提升,助您畅享网络,加速体验,无论身处何地,轻松连接。

网站地图

找到迅猛兔加速器免费下载