기업들이 데이터 기반 운영으로 완전히 전환함에 따라데이터 레이크이는 오랫동안 대규모 비즈니스 데이터를 처리하는 인프라 역할을 해왔습니다. 그러나 점점 더 많은 기업들이 실제 사용 과정에서 다음과 같은 문제점을 발견하고 있습니다.
"데이터가 S3에 저장될 수 있다는 사실이 그 데이터를 사용할 수 있다는 것을 의미하지는 않습니다."
기존의 데이터 레이크는 테이블 구조 변경의 어려움, 업데이트 및 삭제 비용의 증가, 여러 엔진의 동시 접근으로 인한 충돌, 과거 데이터 추적의 어려움 등의 문제로 인해 점차 새로운 기술적 부담으로 여겨지고 있습니다.
이러한 배경 속에서,아파치 아이스버그 이는 AWS에서 공식적으로 지원하는 최신 데이터 레이크 테이블 형식 중 하나로 점차 자리 잡고 있으며, 이를 중심으로 구축된 데이터는... AWS 아이스버그 솔루션이는 기업 데이터 플랫폼 업그레이드를 위한 중요한 방향으로 자리 잡고 있습니다.
AWS Iceberg란 무엇인가요?
먼저 명확히 해야 할 점은 다음과 같습니다.
AWS Iceberg는 별도의 AWS 서비스가 아닙니다.
흔히 하는 말 AWS 아이스버그이는 AWS 클라우드를 기반으로 한다는 것을 의미합니다. 아파치 아이스버그 테이블 형식다음과 같은 여러 AWS 네이티브 서비스를 결합한 최신 데이터 레이크 아키텍처:
- 아마존 S3기본 데이터 저장소
- 아파치 아이스버그테이블 형식 및 메타데이터 관리 사양
- AWS Glue 데이터 카탈로그통합 메타데이터 카탈로그
- 아마존 아테나/EMR/레드시프트쿼리 및 계산 엔진
이 아키텍처는 데이터 레이크의 저비용 및 높은 확장성을 유지하면서 데이터 웨어하우스 수준에 가까운 관리 및 일관성 유지 기능을 도입합니다.
기존 데이터 레이크가 점점 "사용하기 어려워지는" 이유는 무엇일까요?
많은 기업에서 기존 데이터 레이크는 일반적으로 다음과 같습니다.
S3 + Parquet + Hive 메타스토어
이 모델은 초기 단계에는 매우 효과적이었지만, 데이터 규모와 비즈니스 복잡성이 증가함에 따라 점차 문제점이 드러나기 시작했습니다.
- 이 앱은 추가 쓰기만 지원하며, 업데이트 및 삭제는 매우 어렵습니다.
- 파티션 설계에 결함이 생기면 나중에 수정하는 것이 거의 불가능해집니다.
- 쿼리 엔진은 수많은 관련 없는 파일을 스캔해야 하므로 성능을 제어할 수 없습니다.
- 여러 엔진에서 동시에 쓰기 작업을 수행하면 데이터 불일치가 발생하기 쉽습니다.
이러한 문제점들은 저장 공간이나 컴퓨팅 성능 부족 때문이 아니라, 오히려...테이블 관리 기능 부족.
Apache Iceberg는 어떤 핵심 기능을 제공합니까?
Apache Iceberg의 핵심 가치는 다음과 같은 일련의 기능을 제공한다는 점에 있습니다...표준화되고 엔진에 독립적인 테이블 관리 메커니즘.
1. 업데이트/삭제/병합 기능을 완벽하게 지원합니다.
Iceberg는 테이블 전체를 다시 작성하지 않고도 행 수준의 데이터 수정을 지원합니다.
- 주문 수정, 상태 변경, 데이터 오류 수정 등의 시나리오에 적합합니다.
- 비즈니스 분석 시스템에 더욱 사용자 친화적인 환경을 제공합니다.
2. 시간 여행
Iceberg는 테이블의 과거 스냅샷을 저장하며 다음을 지원합니다.
- 과거 버전 데이터를 조회합니다.
- 데이터 감사
- 잘못된 작업의 롤백
이는 특히 규정 준수, 재무 및 데이터 관리 시나리오에서 중요합니다.
3. 고성능 쿼리 및 숨겨진 파일 복잡성
Iceberg는 파일 목록, 파티션 정보, 통계 등 모든 메타데이터를 유지 관리합니다.
- 쿼리 엔진은 S3 디렉터리를 스캔할 필요가 없습니다.
- 정말로 필요한 데이터 파일만 읽으십시오.
- Athena, Trino 및 Spark의 쿼리 효율성을 크게 향상시킵니다.
4. 다중 엔진 동시 접속으로 벤더 종속을 방지합니다.
동일한 빙산 표를 다음과 같은 용도로 사용할 수 있습니다.
- 아테나 검색
- EMR 스파크 쓰기
- 적색편이 스펙트럼 분석
이를 통해 서로 다른 엔진에 대해 여러 데이터 복사본을 유지 관리할 필요가 없어지는데, 이는 특히 기업의 장기적인 아키텍처 발전에 매우 중요합니다.
AWS의 Iceberg 공식 지원
AWS는 이를 여러 핵심 서비스에 통합했습니다.Apache Iceberg에 대한 네이티브 지원:
1. 아마존 아테나
- Iceberg 테이블에 대한 기본 지원
- 삽입/업데이트/삭제/병합 기능을 지원합니다.
2. AWS Glue
- Iceberg의 메타데이터 카탈로그인 Glue Catalog
- Glue Job(Spark)은 Iceberg 테이블을 직접 읽고 쓸 수 있습니다.
3. 아마존 EMR
- Spark, Trino, 그리고 Flink는 Iceberg를 전적으로 지원합니다.
- 아마존 레드시프트
- Redshift Spectrum을 사용하여 Iceberg 테이블을 쿼리하기
- Redshift Serverless에도 적용됩니다.
이는 다음을 의미합니다.
Iceberg는 더 이상 "실험적인 선택"이 아니라 AWS에서 공식적으로 인정하는 주류 데이터 레이크 솔루션입니다.
Iceberg는 어떤 기업 시나리오에 적합합니까?
실제 고객 프로젝트 경험을 바탕으로 볼 때, 다음과 같은 시나리오에서 AWS Iceberg를 구현하는 것이 가장 이상적입니다.
- 데이터 레이크와 데이터 웨어하우스의 통합 구축
- 분석 데이터는 자주 업데이트하거나 수정해야 합니다.
- 여러 분석 엔진이 병렬로 사용됩니다(BI + 데이터 과학 + 실시간 분석).
- 우리는 특정 데이터 플랫폼이나 공급업체에 깊이 종속되는 것을 피하고자 합니다.
- 데이터 거버넌스, 감사 및 추적성이 필요한 기업
AWS 에이전트로서
아이스버그는 매우 유능하지만,진정한 과제는 실행 계획을 설계하는 데 있다.:
- 테이블 분할 및 진화 전략은 어떻게 계획해야 할까요?
- 메타데이터 크기를 제어하는 방법은 무엇인가요?
- Athena, EMR, Redshift 간에 작업을 합리적으로 분배하는 방법은 무엇일까요?
- S3와 컴퓨팅 엔진 간의 비용 균형을 어떻게 맞출 수 있을까요?
처럼 AWS 공식 인증 리셀러클라우드 기반 데이터 레이크 및 분석 플랫폼 구축 시에는 일반적으로 다음과 같은 요소들이 조합됩니다.
- 기업 비즈니스 모델 및 쿼리 패턴
- 비용 예산 및 성과 목표
- 기존 데이터 웨어하우스 또는 하둡 시스템의 마이그레이션 요구 사항
고객을 위한 디자인 아이스버그 데이터 레이크 솔루션: 장기적인 확장성, 비용 관리 용이성 및 유지 관리 용이성.단순히 "테이블 형식을 Iceberg 형식으로 변경"하는 대신에.
결론
Apache Iceberg는 데이터 레이크를 더 복잡하게 만드는 것이 아니라 오히려 더 "관리하기 쉽게" 만들어 줍니다.
AWS 클라우드에서 Iceberg는 데이터 레이크와 데이터 웨어하우스를 연결하는 핵심적인 다리 역할을 하고 있습니다. 차세대 데이터 플랫폼 구축을 원하는 기업에게 Iceberg는 매우 유용한 솔루션입니다.핵심은 AWS Iceberg를 선택할지 여부가 아니라 "언제, 그리고 어떻게 올바르게 도입할지"입니다.

