Amazon Bedrock 中Claude 3.5 模型系列的三個新功能

Amazon Bedrock 中引入了Anthropic 的Claude 3.5,提高了AI 模型智慧的行業標準,同時保持了Claude 3 Sonnet的速度和成本。本文將向您介紹Amazon Bedrock 中Claude 3.5 模型系列的三個新功能:

升級版Claude 3.5 Sonnet

現在可以存取升級版Claude 3.5 Sonnet 模型,該模型以以前代模型的優勢為基礎,以相同的成本提供更高的智慧。 Claude 3.5 Sonnet 持續提升其解決實際軟體工程任務和遵循複雜代理工作流程的能力。升級版Claude 3.5 Sonnet 可協助完成整個軟體開發生命週期,從初始設計到錯誤修復、維護和最佳化。憑藉這些功能,升級版Claude 3.5 Sonnet 模型可以幫助建立具有溫暖、類似人類語氣的更高級聊天機器人。升級版模型擅長的其他用例包括知識問答平台、從圖表和圖解等視覺效果中提取資料以及重複任務和操作的自動化。

計算機使用– Claude 3.5 Sonnet

現在在Amazon Bedrock 的公開測試版中提供電腦使用功能,讓Claude 感知並與電腦介面互動。開發人員可以指示Claude 以人類的方式使用電腦:檢視螢幕、移動遊標、點擊按鈕和鍵入文字。這透過讓模型存取可以返回電腦操作(如按鍵和滑鼠單擊)、編輯文字檔案和運行shell 命令等電腦操作的整合工具來實現。軟體開發人員可以透過建立操作執行層並授予Claude 3.5 Sonnet 螢幕存取權限,將電腦使用整合到他們的解決方案中。透過這種方式,軟體開發人員可以建立具有執行電腦操作、遵循多個步驟並檢查其結果能力的應用程式。電腦使用為人工智慧應用程式開闢了新的可能性。例如,它可以幫助自動化軟體測試和後台任務,並實現可以與應用程式互動的更高級的軟體助理。鑑於這項技術尚處於早期階段,鼓勵開發人員探索低風險任務並在沙盒環境中使用它。

 

Claude 3.5 Haiku

新款Claude 3.5 Haiku 將快速反應時間與改進的推理能力結合,使其成為需要速度和智慧的任務的理想選擇。 Claude 3.5 Haiku 在其前身的基礎上進行了改進,性能與Claude 3 Opus(之前是Claude 最大的型號)相當。 Claude 3.5 Haiku 可以協助處理快速且準確的程式碼建議、需要快速回應客戶服務的高度互動聊天機器人、電子商務解決方案和教育平台等用例。對於處理金融、醫療保健、研究等領域大量非結構化資料的客戶,Claude 3.5 Haiku 可以幫助有效地處理和分類資訊。

根據Anthropic 介紹,升級版Claude 3.5 Sonnet 比其前代產品有了全面改進,在編碼方面取得了顯著進步,而編碼是其本已表現出色的領域。升級版Claude 3.5 Sonnet 在行業基準測試中表現出了廣泛的改進。在編碼方面,它在SWE-bench Verified 上的性能提高了33% 至49%,得分高於所有公開可用的模型。它還在TAU-bench(一種代理工具使用任務)上提高了性能,在零售領域從62.6% 提高到69.2%,在航空領域從36.0% 提高到46.0%。下表包括Anthropic 提供的模型評估。

 

升級版Claude 3.5 Sonnet 評估

 

電腦使用,AI 互動的新前沿

Claude 並未限制模型使用API,而是接受了通用電腦技能的訓練,使其能夠使用各種標準工具和軟體程式。這樣,應用程式就可以使用Claude 來感知電腦介面並與之互動。軟體開發人員可以整合此API,使Claude 能夠將提示轉換為特定的電腦命令(開啟瀏覽器、瀏覽此網站等)。

更具體地說,在呼叫該模型時,軟體開發人員現在可以使用三個新的整合工具,這些工具提供了一套虛擬的手來操作電腦:

  • 電腦工具– 此工具可以接收螢幕截圖和目標作為輸入,並傳回實現該目標應執行的滑鼠和鍵盤操作的描述。例如,此工具可以要求將遊標移至特定位置、按一下、鍵入和截取螢幕截圖。
  • 文字編輯器工具——使用此工具,模型可以要求執行檢視文件內容、建立新文件、取代文字和撤銷編輯等操作。
  • Bash 工具——此工具傳回可在電腦系統上執行的命令,以便作為使用者在終端機中輸入的內容在較低層級進行互動。

 

這些工具為自動化複雜任務開闢了無限可能,從數據分析和軟體測試到內容創建和系統管理。由Claude 3.5 Sonnet 提供支援的應用程式可以像人類一樣與電腦交互,瀏覽多種桌面工具,包括終端機、文字編輯器、互聯網瀏覽器,還能夠填寫表格甚至調試程式碼。

在OSWorld (真實電腦環境中多模態代理的基準)上,升級後的Claude 3.5 Sonnet 目前得分為14.9%。雖然人類等級的技能遙遙領先,得分約為70-75%,但這一結果比同一類別中排名第二的模型獲得的7.7% 要好得多。

在Amazon Bedrock 控制台中體驗Claude 3.5 的完整功能

存取升級版Claude 3.5 Sonnet 需要先登入Amazon Bedrock 控制台。使用者可透過導航至控制台的「模型存取」部分並申請Claude 3.5 Sonnet V2 的存取權限,即可開始測試並整合此新一代強大AI 模型。開發人員還可以利用其電腦使用功能以及多種工具(電腦工具、文字編輯器工具、Bash 工具)來探索各種新穎的用例和解決方案。這些功能不僅簡化了開發流程,還提高了業務自動化和效率。

总结

Amazon Bedrock 引入的升級版Claude 3.5 模型系列不僅在智慧和效能上取得了顯著進步,還透過創新功能,如電腦使用和增強的推理能力,進一步擴展了AI 的應用範圍。無論是軟體工程、商業自動化,還是複雜的資料處理任務,Claude 3.5 Sonnet 和Claude 3.5 Haiku 都為開發人員和企業提供了強大的工具和解決方案。隨著AI 技術的不斷發展,Claude 3.5 的應用前景無疑將更加廣泛,為推動各產業數位轉型貢獻力量。

 

更多探索

Tell me what you need