AWS Glue 시작 가이드

오늘날 데이터 중심 비즈니스 시대에 기업들은 방대한 양의 정형 및 비정형 데이터를 통합해야 하는 과제에 직면해 있습니다. 여러 소스의 데이터를 신속하게 정리, 변환 및 동기화하는 방법은 디지털 혁신의 핵심 단계가 되었습니다. AWS Glue는 이러한 어려움을 해결하도록 설계된 완전 관리형 서버리스 데이터 통합 서비스입니다.

이 글에서는 AWS Glue의 핵심 기능, 적용 시나리오, 장점을 종합적으로 소개하고, 클라우드에서 AWS 에이전트로서의 전문적인 관점을 바탕으로 실질적인 제안을 제공합니다.

 

AWS Glue란 무엇인가요?

AWS Glue는 Amazon Web Services에서 제공하는 서버리스 자동화 데이터 준비 및 통합 서비스입니다. 개발자와 데이터 엔지니어는 기본 서버 리소스를 관리할 필요 없이 여러 데이터 소스에서 데이터를 쉽게 추출, 정리, 변환 및 로드(ETL)할 수 있습니다.

데이터 레이크, 데이터 웨어하우스, 머신 러닝 모델을 위한 데이터를 준비하는 데 이상적인 플랫폼이며, Amazon S3, Redshift, RDS, DynamoDB, Kafka, MongoDB 등 다양한 데이터 소스와의 원활한 통합을 지원합니다.

AWS Glue 워크플로는 일반적으로 메타데이터 정의, 데이터 소스 크롤링, ETL 작업 생성, 정리 및 변환 실행, 그리고 대상 위치로 결과 출력으로 구성됩니다. 전체 프로세스는 Glue Studio에서 시각화되어 로우코드 또는 노코드 데이터 엔지니어링 구축을 지원합니다.

 

AWS Glue의 핵심 구성 요소

AWS Glue는 ETL 프로세스를 구축, 실행 및 모니터링하는 데 필요한 모든 도구를 제공합니다. 핵심 구성 요소는 다음과 같습니다.

1. Glue 데이터 카탈로그

Hive Metastore와 유사한 중앙 메타데이터 웨어하우스로, 테이블 정의, 데이터 소스 위치, 파티션 정보 등을 저장하는 데 사용됩니다. Glue, Athena, Redshift Spectrum 등의 서비스와 공유할 수 있습니다.

2.글루 크롤러(크롤러)

Amazon S3 또는 데이터베이스의 데이터 구조를 자동으로 스캔하고 Glue Catalog에 메타데이터를 등록하여 자동으로 데이터를 식별하고 스키마를 생성합니다.

3.글루 스튜디오

그래픽 비주얼 편집기를 사용하면 기술 전문가가 아니더라도 드래그 앤 드롭 방식으로 복잡한 ETL 프로세스를 구축할 수 있어 개발 효율성이 크게 향상됩니다. 데이터 시각적 미리보기, 필드 매핑, 조건 변환, 집계 및 기타 기능을 지원합니다.

4.접착제 작업

ETL 코드를 작성하고 실행하고(PySpark, Scala, Python 지원), 리소스를 자동으로 탄력적으로 확장하고, TB 수준의 데이터를 쉽게 처리하는 데 사용됩니다.

5. Glue 워크플로

스케줄링, 종속성 관리 및 실패 재시도를 위해 여러 작업과 크롤러를 복잡한 데이터 파이프라인으로 결합하는 기능을 지원합니다. 또한, 일일 일괄 처리 작업의 자동화된 오케스트레이션에 적합합니다.

6. 접착제 트리거

Glue Trigger는 이벤트나 예약된 작업에 따라 Glue Job이나 Workflow를 트리거하는 데 사용할 수 있으며, 자동화를 달성하는 데 중요한 단계입니다.

7.글루 마켓플레이스

Glue Marketplace를 통해 사용자는 타사가 개발 효율성을 개선하기 위해 구축한 사전 구축된 변환 모듈, 커넥터 및 기능 라이브러리에 액세스할 수 있습니다.

 

AWS Glue의 이점
서버리스:

인프라를 프로비저닝하거나 관리할 필요가 없습니다. AWS Glue는 작업에 따라 컴퓨팅 리소스를 자동으로 할당하고 필요에 따라 요금을 청구하여 운영 및 유지 관리 비용을 절감합니다.

높은 수준의 자동화:

크롤러가 데이터 구조를 자동으로 식별하고 Glue Studio가 구축 과정을 시각화함으로써 수동 코딩 작업량이 크게 줄어듭니다.

확장 가능한 성능:

Glue Jobs는 Apache Spark 기반으로 구축되었으며, TB 수준 데이터의 탄력적 동시 처리를 지원하며, 대규모 데이터 통합 작업에 적합합니다.

좋은 생태적 통합:

데이터 레이크(Amazon S3), 데이터 웨어하우스(Redshift), 쿼리 서비스(Athena), BI(QuickSight) 등 AWS 서비스와 긴밀하게 통합되었습니다.

비용 관리 가능:

Glue는 초 단위로 요금이 청구되며, 서버를 장시간 실행할 필요가 없습니다. 유휴 리소스 사용을 방지하기 위해 온디맨드 및 작업 중심 시나리오에 적합합니다.

보안 및 규정 준수:

Glue는 AWS Lake Formation 액세스 제어 정책을 지원하고 이를 IAM과 결합하여 세분화된 권한 제어를 구현함으로써 기업의 높은 데이터 보안 요구 사항을 충족합니다.

유연한 개발 방법:

AWS Glue는 시각화 및 코드를 활용한 하이브리드 개발을 지원합니다. 복잡한 로직의 경우 개발자는 PySpark를 사용하여 사용자 지정 스크립트를 작성할 수 있으며, 일반적인 변환 시나리오의 경우 비즈니스 담당자는 Glue Studio를 통해 빠르게 구성하여 전반적인 팀 협업 효율성을 향상시킬 수 있습니다.

 

일반적인 응용 프로그램 시나리오

1. 데이터 레이크 구축

Glue Crawler를 사용하여 Amazon S3 파일을 정기적으로 검사하고 카탈로그에 등록하세요. Athena와 함께 사용하면 저렴한 데이터 레이크 분석 플랫폼을 구축할 수 있습니다.

2. 데이터웨어하우스 로딩

다양한 비즈니스 시스템(예: RDS, MySQL, PostgreSQL)에서 데이터를 정리한 후 이를 일괄적으로 Redshift로 가져와서 비즈니스 인텔리전스 분석을 지원합니다.

3. 일일 데이터 정리 작업

후속 모델링이나 분석을 준비하기 위해 로그, CSV, JSON 데이터에 대한 표준화, 누락된 값 채우기, 필드 병합 등의 작업을 수행합니다.

4. 머신러닝 전처리

SageMaker와 함께 사용할 경우, 모델 학습 과정에 구조화된 기능을 입력하기 전에 Glue에서 빅데이터의 전처리가 수행됩니다.

5. 다중 소스 데이터 통합

CRM, ERP, IoT 등 여러 시스템의 데이터를 통합하고, 통합된 데이터 자산 카탈로그를 구축하며, 부서 간 데이터 공유의 효율성을 높입니다.

6. 데이터 준수 및 감사

Glue + Lake Formation을 사용하여 데이터 액세스 감사, 중요한 필드 처리, 규정 준수 검사를 구현하여 기업 데이터 거버넌스를 지원합니다.

 

가격 모델 분석

AWS Glue의 주요 청구 소스는 다음과 같습니다.

프로젝트 설명: Glue Job은 실제 실행 시간(2단계)을 기준으로 요금이 청구됩니다. Data Catalog는 매월 처음 100만 개의 API에 대해 무료입니다. Crawler는 분당 크롤링 시간을 기준으로 요금이 청구됩니다. Glue Studio는 작업을 무료로 빌드할 수 있지만 실행에는 여전히 요금이 부과됩니다. Dev Endpoint는 인스턴스 시간(대화형 디버깅 및 개발용)을 기준으로 요금이 청구됩니다. 예를 들어, 하루에 한 번 실행되고 5분 동안 지속되는 Glue 작업은 월 수십 위안(RMB)에 불과하여 매우 비용 효율적입니다. 기존 데이터 통합 도구와 비교했을 때, AWS Glue의 "사용량에 따른 지불" 모델은 중소기업과 탄력적인 워크로드에 더 적합합니다.

또한, 기업은 Glue의 작업 북마크 기능을 결합하여 증분 처리를 달성하고 새 데이터나 변경된 데이터만 처리함으로써 비용을 더욱 절감하고 효율성을 개선할 수 있습니다.

 

기업은 어떻게 Glue를 신속하게 구현할 수 있나요?

AWS 공인 에이전트인 Cloud는 기업이 Glue를 사용할 때 다음 사항에 주의할 것을 권장합니다.

  1. 메타데이터 구조 계획: 카탈로그 구성은 다운스트림 분석 및 쿼리 성능에 직접적인 영향을 미칩니다. 주제 도메인에 따라 카탈로그를 설계하는 것이 좋습니다.
  2. 효과적인 작업 모니터링 및 로그 수집: CloudWatch와 결합하여 작업 성공률과 성능 병목 현상을 추적할 수 있습니다.
  3. 개발 엔드포인트의 합리적인 사용: Glue는 스크립트 논리를 미리 검증할 수 있는 Dev Endpoint 디버깅을 지원합니다.
  4. 데이터 거버넌스는 동시에 촉진됩니다. Glue는 Lake Formation과 함께 사용되어 데이터 접근 제어 및 감사 규정 준수를 달성합니다.
  5. 표준화된 데이터 파이프라인 프로세스를 개발합니다. ETL 작업 명명 표준, 로그 추적성 및 완전한 오류 처리 메커니즘을 보장합니다.
  6. 자동화된 트리거 및 버전 관리: Glue Trigger와 AWS CodePipeline을 통해 완벽한 데이터 워크플로 자동화 및 코드 버전 제어가 가능합니다.
  7. SageMaker와 QuickSight를 결합하여 데이터 수집, 분석에서 의사 결정까지 전체 링크가 연결된 폐쇄 루프를 구현하는 통합 데이터 플랫폼을 구축합니다.

 

요약: Glue는 데이터 중심 기업을 위한 강력한 도구입니다.

AWS Glue는 데이터 통합 도구일 뿐만 아니라 기업이 현대적인 데이터 아키텍처를 구축하는 데 중요한 초석입니다. 데이터 정리 작업을 더 이상 복잡한 스크립팅이나 서버 관리에 의존하지 않고 비즈니스 및 가치 실현에 집중할 수 있도록 지원합니다.

AWS Glue를 사용하면 기업은 안정적이고 탄력적이며 저렴한 데이터 파이프라인을 빠르게 구축하여 데이터 분석, 비즈니스 인텔리전스, 머신 러닝을 위한 견고한 기반을 제공할 수 있습니다.

AWS 에이전트로서 우리는 귀하에게 다음과 같은 서비스를 제공할 수 있습니다.

  • AWS Glue 사용 컨설팅 및 아키텍처 설계
  • Glue + Athena + Redshift Data Lake 솔루션 배포
  • 기업용 데이터센터 건설 서비스
  • AWS 공식 리소스 및 무료 체험 지원
  • 원스톱 청구서 지불, 비용 최적화 및 중국어 기술 지원
  • 페이지 하단의 QR 코드를 스캔하여 문의하시고, 데이터를 비즈니스에 실질적으로 활용하고 미래를 주도할 수 있는 독점적인 AWS 데이터 통합 클라우드 솔루션을 받아보세요.

더 탐험할 것

당신이 필요한 것을 말해