我們Oncloud AI透過本文詳細了解Claude Sonnet 3.5 和Claude 3.5 Haiku 的最新功能和增強功能,包括改進的效能、新功能和使用者友好的更新。隨時了解這些版本在高階AI 詩歌工具領域的獨特之處。
性能改進
編碼能力
- SWE-bench Verified 得分從33.4% 提高到49.0%,超越其他公開模型
- 增強代理工具使用任務(TAU-bench) 的效能:
- 零售領域:從62.6% 提高到69.2%
- 航空領域:由36.0%增至46.0%
速度與效率
- 運行速度是Claude 3 Opus 的兩倍
- 儘管有所改進,但成本結構保持不變
新功能
電腦使用(公開測試版)
- 允許Claude 像人類一樣與電腦介面進行交互
- 可瀏覽螢幕、行動遊標和輸入文字
- OSWorld 基準測試得分為14.9%,顯著高於競爭對手的7.7%
文物特徵
- 在對話旁邊建立專用視窗來顯示產生的內容
- 支援三種類型的工件:
- 基於文字的寫作任務
- 適用於需要視覺效果的項目
- 開發工作編碼
型號變體
Claude 3.5 Sonnet
- 現已推出,各項指標均增強
- 具有出色的研究生程度推理能力和本科生程度的知識
- 改進分析圖像和圖表的視覺能力
Claude 3.5 Haiku
搭配Claude 3 Opus 性能的全新高性價比機型
SWE-bench 驗證得分為40.6%
針對面向客戶的應用程式進行了最佳化
Claude 3.5 Sonnet vs ChatGPT 4o vs Gemini 1.5 Pro
| 能力 | Claude 3.5 Sonnet (New) | ChatGPT 4o | Gemini 1.5 Pro |
| 多模態推理分數 | 0.92 | 0.90 | 0.89 |
| OCR/手寫識別 | 出色的 | 出色的 | 出色的 |
| 圖表/圖形解釋 | 優越的 | 好的 | 好的 |
| 視覺資料處理 | 先進的 | 基本的 | 基本的 |
| 上下文視窗大小 | 20 萬個代幣 | 8K 代幣 | 8K 代幣 |
Claude 3.5 Sonnet 在多模式推理任務中表現出色,尤其擅長:
- 視覺數據解釋與分析
- 使用視覺元素處理大型文檔
- 進階圖表和圖形理解
這三種模型在OCR 和難以辨認的手寫識別等基本視覺任務中表現同樣出色,但Claude 3.5 Sonnet 在需要詳細分析和解釋的更複雜的視覺推理場景中表現出特別的優勢。
Claude 3.5 Sonnet:改進與缺陷並存
Claude 3.5 Sonnet 的最新版本在AI 社群中引起了極大的轟動,用戶報告了令人印象深刻的改進和意想不到的挑戰。以下全面介紹開發人員和使用者對新模型的體驗。
程式碼生成和開發
iOS 開發成功幾位開發人員報告了使用Sonnet 3.5 開發iOS 應用程式的正面體驗,並指出解決問題的能力有顯著提高[1]。該模型展示了增強的解決複雜編碼問題的能力,儘管一些用戶指出其性能存在不一致。
整合工作流程開發人員已經將Claude 與各種工具結合建立了有效的工作流程:
- 常規查詢的Web 介面
- 透過Bolt Mac 應用程式進行API 集成
- 用於直接程式碼互動的遊標
- 用於管理專案文件的自訂Python 腳本
顯著的行為變化
個性增強使用者發現Sonnet 3.5 在對話中表現出更多的個性和參與度,有人指出它在互動中「超級親切」和「不可思議」[1]。與先前的版本相比,該模型在回應中表現出更大的自信和智慧。
一致性挑戰一些用戶報告了不一致的行為:
- 偶爾會不必要地分裂回應
- 處理複雜查詢時的效能不穩定
- 會話之間的響應品質波動
技術限制
速率限制使用者已經注意到速率限制的挑戰,特別是在處理大型專案或長時間對話時。基於令牌的配額系統需要對對話情境進行策略管理,以最大限度地提高效率。
代碼修改問題一些開發人員報告了程式碼修改方面的挑戰:
- 程式碼增強過程中偶爾會刪除重要功能
- 儲存和快取指令處理不一致
- 需要多個提示才能維持所需的功能
結論
雖然Claude 3.5 Sonnet 在許多領域都取得了重大進步,但其效能取決於特定用例和實作方法。建議使用者制定適當的工作流程和策略,以最大限度地發揮其優勢,同時克服其限制。
