隨著資料的快速成長和人工智慧技術的日益普及,機器學習已成為現代企業在競爭中脫穎而出的重要工具。亞馬遜機器學習(Amazon Machine Learning, AML)是一項由亞馬遜雲端運算(AWS)提供的服務,旨在幫助使用者輕鬆建置、訓練和部署機器學習模型。無論是初學者或資深資料科學家,AML 都能透過其強大的工具和服務加速機器學習專案的開發流程,為企業創造更多價值。
介紹
- AWS 提供最廣泛、最深入的機器學習服務和支援雲端基礎設施,將機器學習交到每位開發人員、資料科學家和專家從業人員的手中。
- 在AWS 中建立基於ML 的工作負載時,您可以從三個不同層級的ML 服務中進行選擇,以平衡上市速度與客製化等級和ML 技能等級:
- 人工智慧(AI)服務
- 機器學習服務
- ML 框架和基礎設施
- AI 服務等級提供完全託管的服務,讓您能夠使用API 呼叫快速將ML 功能新增至您的工作負載。
- 這使您能夠建立具有電腦視覺、語音、自然語言、聊天機器人、預測和推薦等功能的強大智慧應用程式。
- 此等級的服務是基於預先訓練或自動訓練的機器學習和深度學習模型,因此您不需要ML 知識即可使用它們。
- 您可以使用:
- Amazon Translate用於翻譯或在地化文字內容
- Amazon Polly用於文字轉語音的轉換
- 用於建立對話聊天機器人的Amazon Lex
- Amazon Comprehend從非結構化資料中提取見解和關係
- Amazon Forecast可建構準確的預測模型
- Amazon Fraud Detector可識別潛在的線上詐騙活動,
- Amazon CodeGuru可自動進行程式碼審查並識別最廣泛的程式碼行
- Amazon Textract自動從文件中提取文字和數據
- Amazon Rekognition為您的應用程式添加圖像和視訊分析功能
- Amazon Kendra將重新構想您的網站和應用程式的企業搜索
- Amazon Personalize提供即時個人化推薦
- Amazon Transcribe為您的應用程式添加語音轉文字功能
- ML 服務等級為開發人員、資料科學家和研究人員提供機器學習的託管服務和資源。
- Amazon SageMaker使開發人員和資料科學家能夠快速輕鬆地建置、訓練和部署任何規模的ML 模型。
- Amazon SageMaker Ground Truth可協助您快速建立高度準確的ML 訓練資料集。
- Amazon SageMaker Studio是第一個用於機器學習的整合開發環境,可以大規模建置、訓練和部署ML 模型。
- Amazon SageMaker Autopilot會根據您的資料自動建置、訓練和調整最佳ML 模型,同時使您能夠保持完全的控制和可見性。
- Amazon SageMaker JumpStart可協助您快速輕鬆地開始使用ML。
- Amazon SageMaker Data Wrangler將聚合和準備ML 資料所需的時間從幾週縮短到幾分鐘。
- Amazon SageMaker Feature Store是一個完全託管的專用儲存庫,用於儲存、更新、檢索和共享ML 功能。
- Amazon SageMaker Clarify為ML 開發人員提供了對訓練資料和模型的更高可見性,以便您能夠識別和限制偏差並解釋預測。
- Amazon SageMaker Debugger透過即時監控訓練指標和系統資源來優化ML 模型。
- Amazon SageMaker 的分散式訓練庫可自動在AWS 圖形處理單元(GPU) 實例之間拆分大型深度學習模型和訓練資料集,而所需時間僅為手動操作的一小部分。
- Amazon SageMaker Pipelines是第一個專門為ML 建構的、易於使用的持續整合和持續交付(CI/CD) 服務。
- Amazon SageMaker Neo使開發人員能夠訓練一次ML 模型,然後在雲端或邊緣的任何地方運行它們。
介紹
- Amazon EC2 的執行個體可作為AWS 虛擬機,為在AWS 基礎架構上執行您自己的自管理大數據分析應用程式提供了理想的平台。
- 幾乎任何您可以在Linux 或Windows 虛擬化環境中安裝的軟體都可以在Amazon EC2 上運行,並且您可以使用即用即付的定價模式。
- AWS Graviton 處理器由AWS 使用64 位元Arm Neoverse 核心客製化構建,為您在Amazon EC2 中運行的雲端工作負載提供最佳性價比。
AWS 上的大數據分析選項是一個包含不同文章的系列,這些文章提供了AWS 上不同大數據分析選項的基本介紹。每篇文章都涵蓋瞭如何使用每項服務來收集、處理、儲存和分析大數據的詳細指南。
- Amazon EC2 提供最廣泛、最深入的運算執行個體組合,其中包含許多由最新一代Intel 和AMD 處理器提供支援的執行個體。 AWS Graviton 處理器增加了更多選擇,可協助客戶最佳化其工作負載的效能和成本。
- 您無法獲得的是本白皮書中提到的其他服務附帶的應用程式級託管服務。自我管理的大數據分析有很多選擇:
- NoSQL 產品,例如MongoDB
- 資料倉儲或列式存儲,例如Vertica
- Hadoop 叢集
- Apache Storm 集群
- Apache Kafka 環境
- 在EC2 上執行的任何自管大型數據工作負載也可以在AWS 完全託管的容器編排服務(如Amazon ECS、Amazon EKS 和AWS Fargate)上運作。 Fargate 是適用於容器的無伺服器運算引擎,可與ECS 和EKS 搭配使用。
理想的使用模式
- 專用環境– 在執行自訂應用程式、標準Hadoop 集的變體或其他AWS 產品未涵蓋的應用程式時,Amazon EC2 可提供靈活性和可擴展性來滿足您的運算需求。
- 合規性要求– 某些合規性要求可能要求您在Amazon EC2 上自行執行應用程序,而不是使用託管服務產品。
成本模型
- Amazon EC2 擁有多個執行個體系列(標準、高CPU、高記憶體、高I/O 等)中的多種執行個體類型,以及不同的定價選項(按需、運算節省計劃、預留和Spot)。
- 在撰寫本文時,在ECS 上執行應用程式時,您只需為底層EC2 執行個體付費,無需為使用ECS 支付額外費用。但是,對於EKS,您需要為每個EKS 叢集以及底層EC2 執行個體每小時額外支付0.10 美元。
- AWS Fargate 定價是根據您開始下載容器映像到Amazon ECS 任務或Amazon EKS2 pod 完成期間所使用的vCPU、記憶體和儲存資源計算,四捨五入到最接近的秒數。
- 雖然成本取決於基於用例的各種因素,但Graviton2 實例通常能夠提供比上一代實例更好的性價比。根據您的應用程式要求,您可能想要與Amazon EC2、EKS 或ECS 一起使用其他服務,例如用於直接連接的持久性儲存的Amazon Elastic Block Store (Amazon EBS) 或作為持久性物件儲存的S3;每個服務都有自己的定價模型。
- 如果您在Amazon EC2、EKS 或ECS 上執行大數據應用程序,則您需要承擔任何授權費用,就像在自己的資料中心一樣。 AWS Marketplace 提供許多不同的第三方大數據軟體包,這些軟體包經過預先配置,只需單擊按鈕即可啟動。
表現
- Amazon EC2、EKS 或ECS 的效能取決於您為大數據平台選擇的執行個體類型。每種執行個體類型都有不同的CPU、RAM、儲存、IOP 和網路功能,因此您可以根據應用程式需求選擇合適的效能等級。
耐用性和可用性
- 關鍵應用程式應在AWS 區域內的多個可用區中的叢集中執行,以便任何執行個體或資料中心故障都不會影響應用程式使用者。
- 對於非正常運行時間關鍵型應用程序,您可以將應用程式備份到Amazon S3,並在執行實例或區域故障時還原到該區域中的任何可用區。還有其他選項,具體取決於您正在運行的應用程式和要求,例如鏡像您的應用程式。
可擴展性和彈性
- Auto Scaling 是一項服務,可讓您根據定義的條件自動擴大或縮小Amazon EC2 容量。
- 使用Auto Scaling,您可以確保所使用的EC2 實例數量在需求高峰期間無縫擴大以保持效能,並在需求低迷期間自動縮小以最大限度地降低成本。
- Auto Scaling 特別適合每小時、每天或每週使用量都會變更的應用程式。 Auto Scaling 由CloudWatch 啟用,除CloudWatch 費用外無需支付其他費用。
介面
- 可以透過API、SDK 或AWS 管理控制台以程式設計方式管理Amazon EC2、EKS 和ECS。使用控制台或CloudWatch API 操作可以免費取得運算使用率、記憶體使用率、儲存使用率、網路消耗率以及實例的讀取/寫入流量指標。
- 在Amazon EC2 上運行的大數據分析軟體的介面會根據您選擇的軟體的特性而有所不同。
反模式
- Amazon EC2 有以下反模式:
- 託管服務——如果您的要求是託管服務產品,從大數據分析中抽像出基礎設施層和管理,那麼這種在Amazon EC2 上管理您自己的分析軟體的「自己動手」模式可能不是正確的選擇。
- 缺乏專業知識或資源——如果您的組織沒有或不想花費資源或專業知識來安裝和管理相關係統的高可用性安裝,您應該考慮使用AWS 等效產品,例如Amazon EMR、DynamoDB、Amazon Kinesis Data Streams 或Amazon Redshift。
Amazon Machine Learning 提供了簡單易用、可擴展且高效的機器學習解決方案,適合不同規模和技術水平的使用者。透過整合AWS 的雲端運算能力和AML 的智慧工具,企業可以在更短的時間內將數據轉化為洞察,並推動業務創新。無論是預測分析、自然語言處理或影像識別,Amazon Machine Learning 都為企業賦能,為未來發展鋪路。