データの急速な増加と人工知能テクノロジーの人気の高まりにより、機械学習は現代の企業が競争で優位に立つための重要なツールとなっています。 Amazon Machine Learning (AML) は、Amazon Web Services (AWS) が提供するサービスで、ユーザーが機械学習モデルを簡単に構築、トレーニング、デプロイできるようにします。初心者でも経験豊富なデータ サイエンティストでも、AML は強力なツールとサービスを通じて機械学習プロジェクトの開発を加速し、企業にさらなる価値をもたらします。
導入
- AWS は、最も幅広く奥深い機械学習サービスとそれをサポートするクラウドインフラストラクチャを提供し、あらゆる開発者、データサイエンティスト、専門家が機械学習を利用できるようにします。
- AWS で ML ベースのワークロードを構築する場合、市場投入までのスピードとカスタマイズのレベルおよび ML スキルのレベルのバランスをとるために、次の 3 つの異なるレベルの ML サービスから選択できます。
- 人工知能(AI)サービス
- 機械学習サービス
- MLフレームワークとインフラストラクチャ
- AI サービス レベルでは、API 呼び出しを使用してワークロードに ML 機能を迅速に追加できる、完全に管理されたサービスが提供されます。
- これにより、コンピューター ビジョン、音声、自然言語、チャットボット、予測、推奨などの機能を備えた強力なインテリジェント アプリケーションを構築できます。
- このレベルのサービスは、事前トレーニング済みまたは自動トレーニング済みの機械学習およびディープラーニング モデルに基づいているため、使用するために ML の知識は必要ありません。
- 以下を使用できます:
- Amazon翻訳テキストコンテンツの翻訳またはローカライズ
- アマゾンポリーテキスト音声変換用
- 会話型チャットボットの構築アマゾンレックス
- Amazon Comprehend非構造化データから洞察と関係性を抽出する
- アマゾンの予報正確な予測モデルを構築できる
- Amazon不正検出ツール潜在的なオンライン詐欺行為を特定できる
- Amazon コードグルコードレビューを自動化し、最も広範囲にわたるコード行を特定します
- Amazon テキストラクト文書からテキストとデータを自動的に抽出する
- Amazon 認識アプリケーションに画像とビデオの分析を追加する
- アマゾン・ケンドラウェブサイトとアプリを刷新するエンタープライズ検索
- Amazon パーソナライズリアルタイムでパーソナライズされた推奨事項を提供する
- Amazon トランスクリプトアプリに音声テキスト変換機能を追加する
- ML サービス層は、開発者、データ サイエンティスト、研究者に機械学習用のマネージド サービスとリソースを提供します。
- Amazon SageMaker開発者やデータ サイエンティストがあらゆる規模の ML モデルを迅速かつ簡単に構築、トレーニング、デプロイできるようにします。
- Amazon SageMaker グラウンドトゥルース非常に正確な ML トレーニング データセットを迅速に構築するのに役立ちます。
- Amazon SageMaker スタジオこれは、大規模な ML モデルを構築、トレーニング、デプロイできる、機械学習向けの最初の統合開発環境です。
- Amazon SageMaker オートパイロットデータに最適な ML モデルが自動的に構築、トレーニング、調整され、完全な制御と可視性を維持できます。
- Amazon SageMaker ジャンプスタートML をすばやく簡単に開始するのに役立ちます。
- Amazon SageMaker データラングラーML 用のデータの集約と準備に必要な時間を数週間から数分に短縮します。
- Amazon SageMaker フィーチャーストアML 機能を保存、更新、取得、共有するための完全に管理されたプライベート リポジトリです。
- Amazon SageMaker クラリファイML 開発者にトレーニング データとモデルの可視性を高め、バイアスを特定して制限し、予測を説明できるようにします。
- Amazon SageMaker デバッガートレーニング メトリックとシステム リソースをリアルタイムで監視して ML モデルを最適化します。
- Amazon SageMaker の分散トレーニングライブラリ手動でかかる時間のほんの一部で、大規模なディープラーニング モデルとトレーニング データセットを AWS グラフィック プロセッシング ユニット (GPU) インスタンス全体に自動的に分割します。
- Amazon SageMaker パイプラインこれは、ML 専用に構築された、初めての使いやすい継続的インテグレーションおよび継続的デリバリー (CI/CD) サービスです。
- Amazon SageMaker ネオ開発者が ML モデルを一度トレーニングすれば、クラウド内またはエッジのどこでも実行できるようになります。
導入
- Amazon EC2 インスタンスは AWS 仮想マシンとして機能し、AWS インフラストラクチャ上で独自のセルフマネージド型ビッグデータ分析アプリケーションを実行するための理想的なプラットフォームを提供します。
- Linux または Windows 仮想化環境にインストールできるほぼすべてのソフトウェアは Amazon EC2 で実行でき、従量課金制を使用できます。
- AWS Graviton プロセッサは、64 ビット Arm Neoverse コアを使用して AWS によってカスタム構築されており、Amazon EC2 で実行されるクラウドワークロードに最適な価格性能比を実現します。
AWS でのビッグデータ分析のオプションAWS 上のさまざまなビッグデータ分析オプションの基本的な概要を紹介する一連の記事です。各記事では、各サービスを使用してビッグデータを収集、処理、保存、分析する方法について詳細なガイダンスを提供します。
- Amazon EC2 は、最新世代の Intel および AMD プロセッサを搭載した多数のインスタンスを含む、最も幅広く充実したコンピューティングインスタンスのポートフォリオを提供します。 AWS Graviton プロセッサにより選択肢が広がり、お客様がワークロードのパフォーマンスとコストを最適化できるようになります。
- ただし、このホワイト ペーパーに記載されている他のサービスに付属するアプリケーション レベルのマネージド サービスは提供されません。自己管理型ビッグデータ分析には多くのオプションがあります。
- MongoDBなどのNoSQL製品
- Verticaなどのデータウェアハウスまたは列指向ストレージ
- Hadoopクラスター
- Apache Storm クラスター
- Apache Kafka 環境
- EC2 上で実行されるセルフマネージドのビッグデータワークロードは、Amazon ECS、Amazon EKS、AWS Fargate などの AWS のフルマネージドコンテナオーケストレーションサービスでも実行できます。 Fargate は、ECS および EKS と連携するコンテナ用のサーバーレス コンピューティング エンジンです。
理想的な使用モード
- 専用環境– カスタムアプリケーション、標準 Hadoop スタックのバリエーション、または他の AWS 製品でカバーされていないアプリケーションを実行する場合、Amazon EC2 はコンピューティングのニーズを満たす柔軟性とスケーラビリティを提供します。
- コンプライアンス要件– 特定のコンプライアンス要件では、マネージド サービスを使用するのではなく、Amazon EC2 でアプリケーションを自分で実行することが求められる場合があります。
コストモデル
- Amazon EC2 には、複数のインスタンスファミリー (標準、高 CPU、高メモリ、高 I/O など) にわたる複数のインスタンスタイプと、さまざまな料金オプション (オンデマンド、コンピューティング節約プラン、リザーブド、スポット) があります。
- 本稿執筆時点では、ECS 上でアプリケーションを実行する場合、基盤となる EC2 インスタンスに対してのみ料金が発生し、ECS の使用に対して追加料金は発生しません。ただし、EKS を使用する場合は、EKS クラスターと基盤となる EC2 インスタンスごとに 1 時間あたり 0.10 ドルの追加料金を支払う必要があります。
- AWS Fargate の料金は、コンテナイメージのダウンロードを開始した時点から Amazon ECS タスクまたは Amazon EKS2 ポッドが完了するまでに使用された vCPU、メモリ、およびストレージリソースに基づいて計算され、最も近い秒数に切り上げられます。
- コストはユースケースに基づいてさまざまな要因に依存しますが、Graviton2 インスタンスは一般に、以前の世代のインスタンスに比べて優れた価格/パフォーマンスを提供します。アプリケーションの要件に応じて、直接接続された永続ストレージ用の Amazon Elastic Block Store (Amazon EBS) や永続オブジェクトストレージとしての S3 など、Amazon EC2、EKS、ECS と一緒に他のサービスを使用することもできます。各サービスには独自の価格モデルがあります。
- ビッグデータアプリケーションを Amazon EC2、EKS、または ECS で実行する場合、独自のデータセンターの場合と同様に、ライセンスコストはお客様の負担となります。 AWS Marketplace では、事前に設定されており、ボタンをクリックするだけで起動できるさまざまなサードパーティ製ビッグデータ ソフトウェア パッケージが提供されています。
パフォーマンス
- Amazon EC2、EKS、ECS のパフォーマンスは、ビッグデータ プラットフォームに選択したインスタンス タイプによって異なります。各インスタンス タイプには異なる CPU、RAM、ストレージ、IOPS、ネットワーク機能があるため、アプリケーションのニーズに適したパフォーマンス レベルを選択できます。
耐久性と可用性
- 重要なアプリケーションは、インスタンスまたはデータセンターの障害がアプリケーション ユーザーに影響を与えないように、AWS リージョン内の複数のアベイラビリティーゾーンにまたがるクラスターで実行する必要があります。
- 稼働時間が重要でないアプリケーションの場合は、アプリケーションを Amazon S3 にバックアップし、インスタンスまたはゾーンに障害が発生した場合にリージョン内の任意のアベイラビリティーゾーンに復元できます。実行しているアプリケーションや要件に応じて、アプリケーションのミラーリングなどの他のオプションもあります。
スケーラビリティとレジリエンス
- Auto Scaling は、定義した条件に基づいて Amazon EC2 の容量を自動的に拡大または縮小できるサービスです。
- Auto Scaling を使用すると、使用する EC2 インスタンスの数を、需要がピークの期間にはパフォーマンスを維持するためにシームレスにスケールアップし、需要が低い期間にはコストを最小限に抑えるために自動的にスケールダウンすることができます。
- Auto Scaling は、使用量が時間ごと、日ごと、週ごとに変化するアプリケーションに特に適しています。 Auto Scaling は CloudWatch によって有効化され、CloudWatch の料金以外の追加料金なしで利用できます。
インタフェース
- Amazon EC2、EKS、ECS は、API、SDK、または AWS マネジメントコンソールを通じてプログラムで管理できます。インスタンスのコンピューティング使用率、メモリ使用率、ストレージ使用率、ネットワーク消費量、読み取り/書き込みトラフィックのメトリクスは、コンソールまたは CloudWatch API 操作を使用して無料で利用できます。
- Amazon EC2 で実行されるビッグデータ分析ソフトウェアのインターフェースは、選択したソフトウェアの機能によって異なります。
アンチパターン
- Amazon EC2 には次のアンチパターンがあります。
- ホスティングサービス-- ビッグデータ分析からインフラストラクチャ層と管理を抽象化するマネージドサービス提供が必要な場合は、Amazon EC2 で独自の分析ソフトウェアを管理するこの「自分で行う」モデルは適切な選択ではない可能性があります。
- 専門知識やリソースの不足組織に関連システムの高可用性インストールと管理のためのリソースや専門知識がない、または費やすことを望まない場合は、Amazon EMR、DynamoDB、Amazon Kinesis Data Streams、Amazon Redshift などの AWS 同等製品の使用を検討する必要があります。
Amazon Machine Learning は、あらゆる規模とスキルレベルのユーザーに、使いやすく、スケーラブルで効率的な機械学習ソリューションを提供します。 AWS のクラウドコンピューティング機能と AML のインテリジェントツールを組み合わせることで、企業はより短時間でデータを洞察に変換し、ビジネスイノベーションを推進できます。予測分析、自然言語処理、画像認識など、Amazon Machine Learning はビジネスを強化し、将来の成長への道を切り開きます。