AWS Glue 가격 세부 정보

AWS Glue는 고객에게 정확히 어떤 요금을 청구하나요? 데이터 통합 비용을 계산하는 건 꽤 복잡해 보이는데, 특히 AWS Glue 비용을 고려하면 더욱 그렇습니다. 데이터 엔지니어든 기술 스타트업이든 AWS를 사용하는 사람이라면 클라우드에서 비즈니스를 수행하는 것과 제공하는 서비스에 투자하는 리소스 간의 관계를 이해하는 것이 중요합니다. AWS Glue를 사용하면 강력한 서버리스 데이터 통합을 구축할 수 있으므로 데이터를 변환, 보강하고 로드할 수 있습니다. 하지만 AWS Glue 가격 체계에 대해 잘 모르는 경우 AWS Glue 사용에 대해 일부 요금이 부과될 수 있습니다.

이 블로그 게시물에서는 AWS Glue 가격을 살펴보고 이것이 예산 목표와 비용 최적화 전략에 어떻게 부합하는지 알아보겠습니다. 이 기사에서는 AWS에 익숙하지 않은 사용자와 숙련된 사용자 모두가 활용할 수 있는 다양한 실용적인 정보와 전략을 제공합니다.

 

AWS Glue란 무엇인가요?

 

 

AWS Glue는 ETL 작업(추출, 변환, 로드)을 빌드하고 실행하고, 한 데이터 소스에서 다른 데이터 대상으로 데이터를 마이그레이션하는 데 사용되는 서버리스 데이터 통합 서비스입니다. Amazon Web Services에서 제공하는 관리형 서비스인 AWS Glue를 사용하면 개발자가 방대한 데이터 세트를 더 쉽게 처리할 수 있으며, 특히 데이터 레이크, 데이터 웨어하우스 또는 스트리밍 데이터 플랫폼을 구축하는 데 적합합니다.

Glue의 핵심 기능으로는 데이터 카탈로그, ETL 작업, 크롤러, 트리거, 데이터 품질 검사, Amazon S3, Athena, Redshift 등 다른 AWS 서비스와의 긴밀한 통합이 있습니다. 서버리스 아키텍처를 통해 사용자는 기본 인프라를 미리 구성할 필요가 없으며 사용한 리소스에 대해서만 비용을 지불하면 됩니다.

 

AWS Glue는 어떻게 작동하나요?

Glue의 작동 방식을 이해하면 가격 책정 논리를 이해하는 데 도움이 됩니다. 기본적인 과정은 다음과 같습니다.

  1. 접착제 크롤러Amazon S3 또는 RDS의 데이터 소스를 스캔하고, 메타데이터를 추출하고, 자동으로 데이터 카탈로그 테이블을 생성합니다.
  2. ETL 채용사전 정의된 스크립트(Python 또는 Scala에서 사용 가능)를 사용하여 데이터를 정리, 변환 및 변환합니다.
  3. 데이터 디렉토리AWS 데이터 서비스 전반에서 Glue의 핵심 인덱싱 도구 역할을 하며 모든 테이블에 대한 메타데이터 정보를 기록합니다.
  4. 방아쇠사용자가 일정이나 이벤트에 따라 작업을 자동으로 시작할 수 있습니다.
  5. 데이터 품질 검사이상, 누락 또는 오류가 있는 데이터를 식별하여 데이터 정확성을 보장합니다.

AWS Glue의 Notebook과 Glue Studio도 개발자에게 대화형 개발 환경을 제공합니다.

 

AWS Glue 가격 구조에 대해 자세히 알아보세요

 

 

Glue의 가격은 주로 다음과 같은 부분으로 구성됩니다.

1. 데이터 처리 장치(DPU)

DPU(데이터 처리 장치)는 AWS Glue의 핵심 청구 단위입니다. 각 ETL 작업은 DPU를 사용합니다. 1개의 DPU는 4개의 VCPU와 16GB의 메모리와 같습니다.

  • G.1X DPU: 대부분의 작업에 적합한 표준 구성입니다.
  • G.2X DPU: 높은 집약적 작업을 위해 메모리와 컴퓨팅 성능을 두 배로 늘렸습니다.

Glue의 수수료는 백만 DPU-시간 기준(M-DPU-시간)으로 계산됩니다. 예를 들어, 작업에 DPU 2개가 사용되고 30분 동안 실행되는 경우 DPU 1시간에 대해 요금이 청구됩니다. 작은 일이라도 몇 센트밖에 안 됩니다.

사용자는 리소스 낭비를 방지하기 위해 작업의 데이터 볼륨과 처리 요구 사항에 따라 DPU 수를 적절히 구성하는 것이 좋습니다. 예를 들어, 작은 데이터 세트의 경우 G.2X를 사용할 필요가 없습니다.

2. 크롤러

Glue 크롤러는 실행 시간과 처리하는 데이터 양에 따라 요금이 부과됩니다.

  • 청구 단위는 초이며, 최소 단위는 10분입니다.
  • 크롤러를 실행할 때마다 DPU가 소모됩니다. 일반적으로 유휴 시간 초과 비용을 피하기 위해 작은 데이터 소스를 사용하거나 수요에 따라 실행하는 것이 좋습니다.
  • 데이터 카탈로그만 업데이트해야 하는 경우 API를 통해 테이블 정보를 추가하여 크롤러 비용을 피할 수도 있습니다.
3. 데이터 카탈로그

AWS Glue 데이터 카탈로그에 매월 추가되는 처음 100만 개의 객체는 무료이며, 추가 금액은 100,000개 객체당 $$1의 요금이 청구됩니다.

  • 매달 처음 100만 건의 "접속 요청"은 무료이며, $1은 추가 100만 건에 대해 요금이 부과됩니다.
  • 데이터 카탈로그 통계 및 최적화 기능 요금은 DPU 시간당 $0.44이며, 초 단위로 청구되며 최소 1분입니다.

메타데이터에 대한 작업을 자주 수행하거나 분석 최적화를 수행해야 하는 경우 리소스 사용 한도를 설정하는 것이 좋습니다.

4. AWS Glue DataBrew 세션 및 작업

DataBrew는 기술 지식이 없는 사용자를 위한 시각적 데이터 준비 도구입니다.

  • 대화형 세션: 30분당 $1 USD, 신규 사용자는 처음 40분은 무료입니다.
  • 작업 실행: 노드당 $0.48, 기본 노드 수는 5개이며 분 단위로 청구됩니다.

예를 들어, 5개의 노드를 사용하고 실행하는 데 10분이 걸리는 작업의 비용은 약 $0.40입니다. 작업 계획을 합리적으로 수립하고 노드 수를 조절하는 것이 좋습니다.

5. 데이터 품질 검사 및 Spark Streaming 작업

Glue는 Spark Streaming 작업과 데이터 품질 검사를 지원합니다.

  • 각 통계 분석에는 1개의 DPU가 필요하며 실행하는 데 약 10~20초가 걸립니다.
  • 이상 탐지 재학습에는 보통 15초가 걸리고 비용은 약 $0.00185입니다.

비용은 높지 않지만 대규모 테스트에서는 DPU 사용량을 제어해야 합니다.

Glue Studio의 Glue 작업과 작업 노트북도 DPU 청구 모델을 사용하며, 리소스는 ETL 작업의 복잡성에 따라 조정되어야 합니다.

기타 수수료에는 Amazon S3 데이터 저장 수수료, 전송 수수료 등이 포함되며, 이는 별도로 계산해야 합니다.

 

비용 최적화 제안

AWS Glue 비용을 제어하려면 다음 작업을 수행하는 것이 좋습니다.

  • 데이터 양에 따라 DPU 개수를 구성합니다.: G.2X는 대용량 데이터에 사용할 수 있고, G.1X는 소량의 데이터에 사용할 수 있습니다.
  • 유휴 시간 초과 방지: ETL 작업이나 크롤러가 완료된 후에는 잘못된 청구를 방지하기 위해 리소스를 적절한 시간에 종료해야 합니다.
  • 비용 모니터링 도구 사용: AWS Cost Explorer나 타사 도구를 사용하여 Glue 사용 및 지출 추세를 모니터링합니다.
  • 비수요시간대에 작업 실행: 특정 지역을 밤에 운영하면 비용 압박을 줄일 수 있습니다.
  • 유휴 리소스를 정기적으로 정리하세요: 더 이상 사용되지 않는 데이터 디렉토리, 작업 정의 및 트리거를 삭제합니다.

 

결론

AWS Glue는 강력한 데이터 통합 도구이지만, 가격 구조를 깊이 이해해야만 예산을 최적화하고 리소스 효율성을 극대화할 수 있습니다. 사용자는 데이터 처리 장치 DPU의 사용을 합리적으로 제어하고, 접착 작업을 조정하고, 데이터 볼륨과 사용 빈도에 따라 적절한 접착 데이터 디렉토리 전략을 선택하는 것이 좋습니다.

AWS에서 제공하는 무료 계층과 리소스 모니터링 도구, 그리고 합리적인 데이터 계획 및 작업 일정을 활용하면 AWS Glue가 제공하는 데이터 자동화의 편리함을 누리면서 비용 최적화를 달성할 수 있습니다.

더욱 자세한 맞춤형 조언이나 비용 견적이 필요하시면 페이지 하단의 QR 코드를 스캔하여 문의해 주세요!

더 탐험할 것

당신이 필요한 것을 말해