Anthropic — Claude 3.5 Sonnet 和 Claude 3.5 Haiku 推出全新计算机功能

Anthropic 为其 AI 产品线推出了两项重大升级:Claude 3.5 Sonnet 和 Claude 3.5 Haiku。除了这些改进之外,一项新的计算机使用功能也已在公开测试版中推出。这些发展突破了自动化、编码和计算机导航的界限,为开发人员和企业带来了新的可能性。 我们Oncloud AI通过本文详细探讨Claude 3.5 Sonnet 和 Claude 3.5 Haiku。

Claude 3.5 Sonnet:增强软件工程

Claude 3.5 Sonnet 比其前一版本有了重大升级,增强了编码和自动化能力。该模型在代理编码任务中表现出色,在 SWE-bench Verified 等基准测试中的表现有所提高,从 33.4% 上升到 49%,优于包括 OpenAI 的 o1-preview 在内的公开模型。它在用于评估基于工具的问题解决能力的 TAU 基准测试中也获得了更高的分数:

  • 零售领域:从62.6%增至69.2%
  • 航空领域:从 36% 增至 46%

这些优势不会带来任何成本或延迟,因此 Claude 3.5 Sonnet 是复杂、多步骤开发任务的理想解决方案。GitLab 等公司报告称,DevSecOps 任务的推理能力提高了 10%。The Browser Company 还发现该模型在自动化基于 Web 的工作流程方面非常出色。

该模型已与美国和英国人工智能安全研究所合作进行了严格测试,以确保安全部署。它符合 ASL-2 标准(Anthropic 负责任扩展政策的一部分),证实它满足更广泛使用所需的安全基准。

Claude 3.5 Haiku:价格实惠、快速且功能强大的人工智能

新的 Claude 3.5 Haiku 模型专为速度和成本效益而设计,同时在多项评估中与 Anthropic 之前最大的模型 Claude 3 Opus 的性能相当。该模型在低延迟任务中表现出色,非常适合面向用户的产品和数据密集型任务等实时应用。

Claude 3.5 Haiku 在 SWE-bench Verified 上的得分为 40.6%,在某些方面优于早期的 Claude 模型甚至 GPT-4o。它提供了准确的工具使用和改进的指令跟踪能力,使其能够有效地从大型数据集(例如购买历史、定价记录或库存数据)中生成个性化体验。

该模型将于 10 月下旬通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud Vertex AI 推出。最初,它将支持纯文本任务,预计很快就会推出图像输入功能。

人工智能驱动的计算机使用处于公开测试阶段

Anthropic 推出的最令人兴奋的功能之一是 Claude 使用计算机的能力。目前,Claude 已进入公测阶段,开发人员可以使用 Claude 像人类一样执行任务,例如浏览屏幕、打字、点击等。此功能允许模型自动执行重复过程、进行开放式研究,甚至跨多个平台测试软件。

像 Replit 这样的早期采用者已经在使用此功能来自动执行复杂的 UI 导航任务,帮助他们的 Replit Agent 产品在开发过程中评估应用程序。

在 OSWorld 进行的测试中,Claude 3.5 Sonner 在获得更多时间完成任务时得分为 22%,优于其他得分仅为 7.8% 的 AI 模型。即便如此,该功能仍处于实验阶段,并且存在一些限制。需要滚动、缩放或拖动的任务对于 AI 来说可能很难顺利执行。建议开发人员从低风险项目开始探索其潜力。Anthropic 承诺将根据反馈不断改进此功能。

确保安全部署

为了解决垃圾邮件、欺诈或错误信息等安全风险问题,Anthropic 开发了新的分类器来监控和防止滥用计算机使用功能。这种主动方法有助于确保负责任地部署人工智能驱动的自动化。

Claude 模型的数据集和训练细节

据 Google Cloud 介绍,所有 Claude 模型都通过几种技术进行训练:

  • 无监督学习(从原始数据中的模式学习)
  • 强化学习与人类反馈(RLHF)(通过人类反馈进行改进)
  • 体质人工智能(涉及监督学习和强化学习的过程)。

培训基础设施

Claude 3.5 Sonnet v2 使用亚马逊网络服务 (AWS) 和 Google Cloud Platform (GCP) 提供的云服务进行训练。开发使用的主要框架包括 PyTorch、JAX 和 Triton。

训练数据来源

Claude 模型使用多种数据,包括:

  1. 截至 2023 年 8 月收集的公共互联网信息,Claude 3.5 Sonnet v2 的培训于 2024 年 4 月结束。
  2. 来自第三方的非公开数据,包括用户、公司或雇佣的服务提供商创建或标记的内容。
  3. Anthropic 内部生成的数据用于完善模型。

数据清理和过滤

为了确保数据的高质量,Anthropic 采用重复数据删除(删除重复信息)和分类等方法来过滤掉不相关或低质量的数据。

更多探索

Tell me what you need