Amazon Bedrock 中引入了 Anthropic 的 Claude 3.5,提高了 AI 模型智能的行业标准,同时保持了Claude 3 Sonnet的速度和成本。本文将向您介绍Amazon Bedrock 中 Claude 3.5 模型系列的三项新功能:
升级版 Claude 3.5 Sonnet
现在可以访问升级版 Claude 3.5 Sonnet 模型,该模型以前代模型的优势为基础,以相同的成本提供更高的智能。Claude 3.5 Sonnet 继续提高其解决实际软件工程任务和遵循复杂代理工作流程的能力。升级版 Claude 3.5 Sonnet 可帮助完成整个软件开发生命周期,从初始设计到错误修复、维护和优化。凭借这些功能,升级版 Claude 3.5 Sonnet 模型可以帮助构建具有温暖、类似人类语气的更高级聊天机器人。升级版模型擅长的其他用例包括知识问答平台、从图表和图解等视觉效果中提取数据以及重复任务和操作的自动化。
计算机使用– Claude 3.5 Sonnet
现在在 Amazon Bedrock 的公开测试版中提供计算机使用功能,允许 Claude 感知并与计算机界面交互。开发人员可以指示 Claude 以人类的方式使用计算机:查看屏幕、移动光标、单击按钮和键入文本。这通过让模型访问可以返回计算机操作(如击键和鼠标单击)、编辑文本文件和运行 shell 命令等计算机操作的集成工具来实现。软件开发人员可以通过构建操作执行层并授予 Claude 3.5 Sonnet 屏幕访问权限,将计算机使用集成到他们的解决方案中。通过这种方式,软件开发人员可以构建具有执行计算机操作、遵循多个步骤并检查其结果能力的应用程序。计算机使用为人工智能应用程序开辟了新的可能性。例如,它可以帮助自动化软件测试和后台任务,并实现可以与应用程序交互的更高级的软件助手。鉴于这项技术尚处于早期阶段,鼓励开发人员探索低风险任务并在沙盒环境中使用它。
Claude 3.5 Haiku
新款 Claude 3.5 Haiku 将快速响应时间与改进的推理能力相结合,使其成为需要速度和智能的任务的理想选择。Claude 3.5 Haiku 在其前身的基础上进行了改进,性能与 Claude 3 Opus(之前是 Claude 最大的型号)相当。Claude 3.5 Haiku 可以帮助处理快速准确的代码建议、需要快速响应客户服务的高度交互聊天机器人、电子商务解决方案和教育平台等用例。对于处理金融、医疗保健、研究等领域大量非结构化数据的客户,Claude 3.5 Haiku 可以帮助高效地处理和分类信息。
据 Anthropic 介绍,升级版 Claude 3.5 Sonnet 比其前代产品有了全面改进,在编码方面取得了显著进步,而编码是其本已表现出色的领域。升级版 Claude 3.5 Sonnet 在行业基准测试中表现出了广泛的改进。在编码方面,它在 SWE-bench Verified 上的性能提高了 33% 至 49%,得分高于所有公开可用的模型。它还在 TAU-bench(一种代理工具使用任务)上提高了性能,在零售领域从 62.6% 提高到 69.2%,在航空领域从 36.0% 提高到 46.0%。下表包括 Anthropic 提供的模型评估。
计算机使用,AI 交互的新前沿
Claude 并未限制模型使用 API,而是接受了通用计算机技能的训练,使其能够使用各种标准工具和软件程序。这样,应用程序就可以使用 Claude 来感知计算机界面并与之交互。软件开发人员可以集成此 API,使 Claude 能够将提示转换为特定的计算机命令(打开浏览器、浏览此网站等)。
更具体地说,在调用该模型时,软件开发人员现在可以使用三个新的集成工具,这些工具提供了一套虚拟的手来操作计算机:
- 计算机工具– 此工具可以接收屏幕截图和目标作为输入,并返回实现该目标应执行的鼠标和键盘操作的描述。例如,此工具可以要求将光标移动到特定位置、单击、键入和截取屏幕截图。
- 文本编辑器工具——使用此工具,模型可以要求执行查看文件内容、创建新文件、替换文本和撤消编辑等操作。
- Bash 工具——此工具返回可在计算机系统上运行的命令,以便作为用户在终端中输入的内容在较低级别进行交互。
这些工具为自动化复杂任务开辟了无限可能,从数据分析和软件测试到内容创建和系统管理。由 Claude 3.5 Sonnet 提供支持的应用程序可以像人类一样与计算机交互,浏览多种桌面工具,包括终端、文本编辑器、互联网浏览器,还能够填写表格甚至调试代码。
在OSWorld (真实计算机环境中多模态代理的基准)上,升级后的 Claude 3.5 Sonnet 目前得分为 14.9%。虽然人类水平的技能遥遥领先,得分约为 70-75%,但这一结果比同一类别中排名第二的模型获得的 7.7% 要好得多。
在 Amazon Bedrock 控制台中体验 Claude 3.5 的完整功能
访问升级版 Claude 3.5 Sonnet 需要先登录 Amazon Bedrock 控制台。用户可通过导航到控制台的“模型访问”部分并申请 Claude 3.5 Sonnet V2 的访问权限,即可开始测试和集成这一新一代强大 AI 模型。开发人员还可以利用其计算机使用功能以及多种工具(计算机工具、文本编辑器工具、Bash 工具)来探索各种新颖的用例和解决方案。这些功能不仅简化了开发流程,还提高了业务自动化和效率。
总结
Amazon Bedrock 引入的升级版 Claude 3.5 模型系列不仅在智能和性能上取得了显著进步,还通过创新性功能,如计算机使用和增强的推理能力,进一步扩展了 AI 的应用范围。无论是软件工程、商业自动化,还是复杂的数据处理任务,Claude 3.5 Sonnet 和 Claude 3.5 Haiku 都为开发人员和企业提供了强大的工具和解决方案。随着 AI 技术的不断发展,Claude 3.5 的应用前景无疑将更加广泛,为推动各行业数字化转型贡献力量。