亞馬遜重磅發表Amazon Nova Sonic:以革新性的語音基礎模型推動對話式AI體驗躍升

在過去十餘年中,亞馬遜始終深耕語音技術的前沿領域,持續為對話式人工智慧的演進注入動力。從Amazon Alexa這樣享譽全球的智慧語音助手,到Amazon Lex、Amazon Polly和Amazon Connect等一系列雲端服務,亞馬遜不斷推動語音AI在真實業務中的落地與創新。

然而,要讓語音AI真正為企業與使用者創造深遠價值,僅僅依賴字詞的意思還遠遠不夠。在人類溝通中,語氣、語調、節奏等語音脈絡因素在表達意圖和情感中起著至關重要的作用。長期以來,人工智慧系統一直難以準確捕捉這些細節。如今,這項技術難題終於迎來了突破性的解決方案。

亞馬遜正式推出 Amazon Nova Sonic —— 一款集語音理解與語音生成能力於一體的基礎模型。此模型現已透過Amazon Bedrock平台全新推出的API面向開發者開放使用,旨在加速語音AI的整合與落地應用,適用於從客戶服務自動化到旅遊、醫療、教育及娛樂等多元產業場景中的AI智能體(AI Agents)。

從多模型編排邁向一體化架構,重構語音AI開發範式

傳統語音AI系統通常依賴多個分離組件協同工作-語音辨識模型用於轉寫音訊、大語言模型負責理解語意及產生回應、文字轉語音技術則完成最終音訊輸出。這種架構雖然功能完整,卻存在整合複雜、上下文割裂等問題,難以精準還原自然人類對話中至關重要的語氣、語速、停頓與互動節奏。

Amazon Nova Sonic以全新的整合架構徹底重塑了這個流程。它將聽覺理解與聲音生成融為一體,使模型能夠基於輸入語音的語境、風格和情緒線索動態調整輸出,打造出更自然、更具人類特質的語音互動體驗。

更令人驚訝的是,Amazon Nova Sonic甚至能辨識對話中的停頓、猶豫,自動等待適當的回應時機,還能靈活應對中斷、插話等複雜對話情形,從而在語音互動的「真實感」上實現質的飛躍。

如需整合Amazon Nova Sonic或探索更多Amazon Bedrock上的AI模型服務,歡迎掃描頁面底部二維碼聯絡我們以取得一對一技術支援與解決方案建議。

更多探索

Tell me what you need