Claude Sonnet 3.5 和 Claude 3.5 Haiku 的更新

我们Oncloud AI通过本文详细了解 Claude Sonnet 3.5 和 Claude 3.5 Haiku 的最新功能和增强功能,包括改进的性能、新功能和用户友好的更新。随时了解这些版本在高级 AI 诗歌工具领域的独特之处。

编码能力

  • SWE-bench Verified 得分从 33.4% 提高到 49.0%,超越其他公开模型
  • 增强代理工具使用任务 (TAU-bench) 的性能:
    • 零售领域:从 62.6% 提高到 69.2%
    • 航空领域:由36.0%增至46.0%

速度与效率

  • 运行速度是 Claude 3 Opus 的两倍
  • 尽管有所改进,但成本结构保持不变

计算机使用(公开测试版)

  • 允许 Claude 像人类一样与计算机界面进行交互
  • 可以浏览屏幕、移动光标和输入文本
  • OSWorld 基准测试得分为 14.9%,显著高于竞争对手的 7.7%

文物特征

  • 在对话旁边创建专用窗口来显示生成的内容
  • 支持三种类型的工件:
    • 基于文本的写作任务
    • 适用于需要视觉效果的项目
    • 开发工作编码

Claude 3.5 Sonnet

  • 现已推出,各项指标均得到增强
  • 具有出色的研究生水平推理能力和本科生水平的知识
  • 改进分析图像和图表的视觉能力

Claude 3.5 Haiku

匹配 Claude 3 Opus 性能的全新高性价比机型

SWE-bench 验证得分为 40.6%

针对面向客户的应用程序进行了优化

能力 Claude 3.5 Sonnet (New) ChatGPT 4o Gemini 1.5 Pro
多模态推理分数 0.92 0.90 0.89
OCR/手写识别 出色的 出色的 出色的
图表/图形解释 优越的 好的 好的
视觉数据处理 先进的 基本的 基本的
上下文窗口大小 20 万个代币 8K 代币 8K 代币

Claude 3.5 Sonnet 在多模式推理任务中表现出色,尤其擅长:

  • 视觉数据解释和分析
  • 使用视觉元素处理大型文档
  • 高级图表和图形理解

这三种模型在 OCR 和难以辨认的手写识别等基本视觉任务中表现同样出色,但 Claude 3.5 Sonnet 在需要详细分析和解释的更复杂的视觉推理场景中表现出特别的优势。

Claude 3.5 Sonnet 的最新版本在 AI 社区引起了极大的轰动,用户报告了令人印象深刻的改进和意想不到的挑战。下面全面介绍开发人员和用户对新模型的体验。

iOS 开发成功几位开发人员报告了使用 Sonnet 3.5 开发 iOS 应用的积极体验,并指出解决问题的能力有显著提高[1]。该模型展示了增强的解决复杂编码问题的能力,尽管一些用户指出其性能存在不一致。

集成工作流程开发人员已经将 Claude 与各种工具结合起来建立了有效的工作流程:

  • 常规查询的 Web 界面
  • 通过 Bolt Mac 应用程序进行 API 集成
  • 用于直接代码交互的光标
  • 用于管理项目文件的自定义 Python 脚本

个性增强用户发现 Sonnet 3.5 在对话中表现出更多的个性和参与度,有人指出它在交互中“超级亲切”和“不可思议”[1]。与之前的版本相比,该模型在响应中表现出更大的自信和智慧。

一致性挑战一些用户报告了不一致的行为:

  • 偶尔会不必要地分裂回应
  • 处理复杂查询时的性能不稳定
  • 会话之间的响应质量波动

速率限制用户已经注意到速率限制的挑战,特别是在处理大型项目或长时间对话时。基于令牌的配额系统需要对对话上下文进行战略管理,以最大限度地提高效率。

代码修改问题一些开发人员报告了代码修改方面的挑战:

  • 代码增强过程中偶尔删除重要功能
  • 存储和缓存指令处理不一致
  • 需要多个提示才能维持所需的功能

虽然 Claude 3.5 Sonnet 在许多领域都取得了重大进步,但其性能取决于具体用例和实施方法。建议用户制定适当的工作流程和策略,以最大限度地发挥其优势,同时克服其局限性。

更多探索

Tell me what you need