AWS Glue は顧客に具体的にどのような料金を請求するのでしょうか?データ統合のコストを計算するのは、特に AWS Glue のコストを考えるとかなり複雑に思えます。データエンジニアであれ、テクノロジー系スタートアップであれ、AWS を使用するすべての人にとって、クラウドでビジネスを行うことと、提供するサービスに費やすリソースとの関係を理解することは非常に重要です。 AWS Glue を使用すると、強力なサーバーレスデータ統合を作成できるため、データの変換、拡充、ロードが可能になります。ただし、AWS Glue の料金体系を明確に理解していないと、AWS Glue の使用に対して料金が発生する可能性があります。
このブログ記事では、AWS Glue の料金と、それが予算目標やコスト最適化戦略にどのように適合するかについて説明します。この記事では、上級者と初心者の両方の AWS ユーザーが利用できる実用的な情報と戦略を豊富に提供します。
AWS Glue とは何ですか?
AWS Glue は、ETL ジョブ (抽出、変換、ロード) を構築、実行し、あるデータソースから別のデータターゲットにデータを移行するために使用されるサーバーレスのデータ統合サービスです。 Amazon Web Services が提供するマネージドサービスである AWS Glue を使用すると、開発者は大量のデータセットを簡単に処理でき、特にデータレイク、データウェアハウス、ストリーミング データ プラットフォームの構築に適しています。
Glue の主要機能には、データカタログ、ETL ジョブ、クローラー、トリガー、データ品質チェック、Amazon S3、Athena、Redshift などの他の AWS サービスとの緊密な統合などがあります。サーバーレス アーキテクチャにより、ユーザーは基盤となるインフラストラクチャを事前に構成する必要がなく、使用したリソースに対してのみ料金を支払います。
AWS Glue はどのように機能しますか?
Glue の仕組みを理解すると、価格設定ロジックを理解するのに役立ちます。基本的なプロセスは次のとおりです。
- グルークローラーAmazon S3 または RDS 内のデータソースをスキャンし、メタデータを抽出して、データカタログテーブルを自動的に作成します。
- ETLジョブ定義済みのスクリプト (Python または Scala で利用可能) を使用して、データをクリーンアップ、変換、変換します。
- データディレクトリAWS データサービス全体で Glue のコアインデックス作成ツールとして機能し、すべてのテーブルのメタデータ情報を記録します。
- トリガーユーザーがスケジュールまたはイベントに基づいてジョブを自動的に開始できるようにします。
- データ品質チェック異常、欠落、またはエラーのあるデータを識別し、データの正確性を確保するのに役立ちます。
AWS Glue の Notebook と Glue Studio は、開発者にインタラクティブな開発エクスペリエンスも提供します。
AWS Glue の料金体系について詳しく見る
Glue の価格には主に以下の部分が含まれます。
1. データ処理ユニット(DPU)
DPU (データ処理ユニット) は、AWS Glue の中心的な課金単位です。各 ETL ジョブは DPU を消費します。 1 つの DPU は 4 つの VCPU と 16 GB のメモリに相当します。
- G.1X DPU: ほとんどの操作に適した標準構成。
- G.2X DPU: 負荷の高いジョブのメモリと計算能力を 2 倍にします。
Glue の手数料は、100 万 DPU 時間 (M-DPU 時間) 単位で計算されます。たとえば、ジョブが 2 つの DPU を使用して 30 分間実行された場合、1 DPU 時間に対して課金されます。小さな仕事では数セントしか支払われません。
リソースの無駄を避けるために、ジョブのデータ量と処理要件に基づいて DPU の数を適切に構成することをお勧めします。たとえば、小さなデータ セットの場合、G.2X を使用する必要はありません。
2. クローラー
Glue クローラーは、実行時間の長さと処理するデータの量に基づいて課金されます。
- 課金単位は秒単位で、最小単位は10分です。
- クローラーを実行するたびに、DPU が消費されます。通常、アイドル タイムアウトのコストを回避するために、小さなデータ ソースを使用するか、オンデマンドで実行することをお勧めします。
- データカタログの更新のみが必要な場合は、クローラーのコストを回避するために、API を介してテーブル情報を追加することもできます。
3. データカタログ
AWS Glue データカタログでは、毎月最初の 100 万オブジェクトは無料で、追加の金額は 100,000 オブジェクトごとに $1 ドルで課金されます。
- 1 か月あたりの最初の 100 万件の「アクセス リクエスト」も無料ですが、追加の 100 万件ごとに $1 が課金されます。
- データ カタログ統計および最適化機能の料金は、DPU 時間あたり $0.44 で、最低 1 分から秒単位で課金されます。
メタデータに対する操作を頻繁に実行したり、分析の最適化を実行する必要がある場合は、リソース使用量の制限を設定することをお勧めします。
4. AWS Glue DataBrew セッションとジョブ
DataBrew は、技術者以外のユーザー向けの視覚的なデータ準備ツールです。
- インタラクティブセッション: 30 分あたり $1 USD、新規ユーザーの場合は最初の 40 分は無料です。
- ジョブ実行: $0.48/ノード/時間、デフォルトのノード数は 5 で、分単位で課金されます。
たとえば、5 つのノードを使用し、実行に 10 分かかるジョブのコストは約 $0.40 になります。作業計画を合理的に立ててノード数を制御することをお勧めします。
5. データ品質チェックとSparkストリーミングジョブ
Glue は Spark Streaming ジョブとデータ品質チェックをサポートします。
- 各統計分析には 1 DPU が必要で、実行には約 10 ~ 20 秒かかります。
- 異常検出の再トレーニングには通常 15 秒かかり、コストは約 $0.00185 かかります。
コストは高くありませんが、大規模なテストでは DPU の使用を制御する必要があります。
Glue Studio および作業ノートブックでの Glue 作業でも DPU 課金モデルが使用され、ETL ジョブの複雑さに応じてリソースを調整する必要があります。
その他の料金には、Amazon S3 のデータ保存料金、転送料金などがあり、別途計算する必要があります。
コスト最適化の提案
AWS Glue のコストを制御するには、次のアクションを実行することをお勧めします。
- データ量に基づいてDPUの数を設定する: G.2X は大容量データに使用でき、G.1X は小容量データに使用できます。
- アイドルタイムアウトの回避: ETL ジョブまたはクローラーが完了したら、無効な課金を防ぐためにリソースを適切なタイミングで終了する必要があります。
- コスト監視ツールを使用する: AWS Cost Explorer などのツールやサードパーティのツールを使用して、Glue の使用状況と支出の傾向を監視します。
- オフピーク時にジョブを実行する特定のエリアを夜間に運用すると、コスト圧力を軽減できます。
- アイドル状態のリソースを定期的にクリーンアップする: 使用されなくなったデータ ディレクトリ、ジョブ定義、およびトリガーを削除します。
結論
AWS Glue は強力なデータ統合ツールですが、その価格体系を深く理解することによってのみ、予算を真に最適化し、リソース効率を最大化することができます。ユーザーは、データ処理ユニット DPU の使用を合理的に制御し、グルー作業を調整し、データの量と使用頻度に基づいて適切なグルー データ ディレクトリ戦略を選択することをお勧めします。
AWS が提供する無料利用枠とリソース監視ツール、そして合理的なデータ計画とジョブのスケジューリングを利用することで、AWS Glue がもたらすデータ自動化の利便性を享受しながらコストの最適化を実現できます。
より詳細なカスタマイズのアドバイスやコストの見積もりが必要な場合は、ページ下部の QR コードをスキャンしてお問い合わせください。