현대의 데이터 중심 기업에서 Amazon S3에 저장된 대규모 데이터를 신속하게 분석하는 것은 매우 중요합니다. AWS Athena는 사용자가 기본 인프라를 관리할 필요 없이 표준 SQL을 사용하여 S3 데이터를 직접 분석할 수 있도록 지원하는 서버리스 대화형 쿼리 서비스입니다. 그러나 기업에게는 Athena의 비용을 관리하고 쿼리 효율성을 최적화하는 것이 무엇보다 중요합니다. 이 글에서는 사용자가 비용을 절감하면서 데이터 분석 기능을 향상시킬 수 있도록 Athena의 가격 모델, 비용 발생 요인 및 최적화 전략을 자세히 설명합니다.
AWS Athena란 무엇인가요?
AWS Athena는... 서버리스 대화형 쿼리 서비스Athena를 사용하면 Amazon S3에서 SQL 쿼리를 직접 실행할 수 있습니다. 사용자는 서버나 클러스터를 관리할 필요 없이 정형 및 반정형 데이터를 손쉽게 분석할 수 있습니다. Athena는 표준 SQL을 지원하며 메타데이터 관리 및 데이터 거버넌스를 위해 AWS Glue 데이터 카탈로그와 통합됩니다. Athena는 쿼리에서 스캔한 데이터 양을 기준으로 요금이 부과되므로 쿼리 효율성이 비용에 직접적인 영향을 미칩니다.
AWS Athena 가격 책정 기준
아테나의 가격 정책은 매우 간단합니다.쿼리당 스캔된 데이터 양에 따라 요금이 부과됩니다.표준 요금은 스캔된 데이터 1TB당 5달러입니다(최소 요금은 10MB 기준). 쿼리 시 스캔되는 데이터 양이 많을수록 비용이 높아집니다. 따라서 데이터 스캔량을 줄이도록 쿼리를 최적화하는 것이 비용 절감의 핵심입니다.
추가로 고려해야 할 비용은 다음과 같습니다.
-
아마존 S3 스토리지 수수료기본 저장 용량은 GB당 월 0.023달러입니다. GET 요청, PUT 요청 및 데이터 전송은 S3 표준 요금으로 청구됩니다.
-
AWS Glue 데이터 카탈로그 수수료최초 100만 개 객체는 무료이며, 이후 10만 개 객체마다 월 1달러씩 부과됩니다. 이 비용은 테이블 및 메타데이터 관리에 사용됩니다.
-
공동 질의 비용Lambda를 통해 외부 리소스(예: RDS, Redshift)를 쿼리하면 Lambda 컴퓨팅 비용이 발생합니다.
-
사전 설정 용량대규모 사용자의 경우, 테라바이트당 비용을 더욱 절감할 수 있도록 맞춤형 가격을 제공할 수 있습니다.
아테나 비용 예시
어떤 회사가 압축되지 않은 CSV 형식의 매출 데이터가 3TB 있다고 가정해 보겠습니다.
| 데이터 형식 | 스캔 볼륨 | 조회 비용 |
|---|---|---|
| CSV 원시 | 3TB | 15달러 |
| GZIP 압축 | 1TB | 5달러 |
| Parquet 컬럼형 표현식 + 컬럼 선택만 해당 | 0.33 테라바이트 | 1.67달러 |
적절한 데이터 형식과 열을 선택하면 필요한 데이터만 스캔할 수 있습니다. 약 89%의 비용 절감.
Athena 쿼리 비용을 줄이는 5가지 전략
1. 컬럼형 저장 형식(Parquet/ORC)을 사용하십시오.
컬럼형 포맷팅은 쿼리에 필요한 컬럼만 읽어들이므로 스캔하는 데이터 양을 크게 줄여줍니다. 예를 들어 CSV 파일을 Parquet으로 변환하고 핵심 필드만 쿼리하면 스캔 크기를 3TB에서 0.33TB로, 비용은 15달러에서 1.67달러로 줄일 수 있습니다.
SQL 예시:
테이블 생성 판매_파케트
와 함께 (
체재 = '쪽매 세공',
외부 위치 = 's3your-bucket/sales_parquet/'
) 처럼
선택하다 * 에서 판매 CSV;
2. 데이터를 분할합니다.
날짜 및 지역과 같은 속성을 기준으로 데이터를 분할하면 Athena가 관련 파티션만 스캔하도록 제한할 수 있습니다.
예를 들어, 월별로 분할된 1TB 데이터 세트에서 1월 데이터만 조회하는 경우 약 83GB를 스캔하며 비용은 약 0.42달러입니다.
SQL 예시:
만들다 외부 테이블 판매 분할됨(
판매 금액 더블
)
분할됨 에 의해 (년도 끈, 월 끈)
저장됨 처럼 쪽매 세공
위치 's3your-bucket/sales_partitioned/';
3. 데이터 파일 압축
GZIP이나 Snappy와 같은 압축 형식을 사용하면 파일 크기를 크게 줄일 수 있습니다. GZIP은 약 3:1의 압축률을 제공하며, Snappy는 더 빠른 쿼리 속도를 제공합니다. 압축을 통해 쿼리 시 스캔해야 하는 데이터 양이 줄어들어 비용이 절감됩니다.
4. EXPLAIN 또는 EXPLAIN ANALYZE를 사용하여 쿼리를 최적화합니다.
Athena는 쿼리 실행 계획 분석 기능을 제공하여 스캔된 데이터 양과 실행 계획을 표시함으로써 비효율적인 쿼리를 식별하는 데 도움을 줍니다. 예를 들어, WHERE 절에 필터 조건을 추가하면 스캔 크기를 500GB에서 50GB로 줄여 쿼리당 약 2.25달러를 절약할 수 있습니다.
5. Apache Iceberg 테이블 활용
Iceberg 테이블은 ACID 트랜잭션, 숨겨진 파티션 및 열 통계를 지원하여 스캔하는 데이터 양을 줄이고 쿼리 성능을 향상시킬 수 있습니다. 열 기반 스토리지 및 파티셔닝과 결합하면 쿼리 비용을 더욱 절감할 수 있습니다.
SQL 예시:
테이블 생성 판매빙산
와 함께 (
테이블 유형 = '빙산',
체재 = '쪽매 세공',
위치 = 's3your-bucket/sales_iceberg/'
) 처럼
선택하다 * 에서 판매 CSV;
사례 연구: 소매업체, 검색 비용 80% 절감
중견 소매업체는 10TB의 매출 데이터를 보유하고 있으며, 데이터 조회 한 건당 최대 50달러의 비용이 발생합니다. 다음 전략을 실행하면 이러한 비용을 절감할 수 있습니다.
-
Parquet 컬럼형 스토리지로 변환
-
날짜별 분할
-
EXPLAIN ANALYZE를 사용하여 쿼리를 최적화하세요
스캔 용량이 2TB로 줄어들고 쿼리당 비용이 10달러로 감소하여 약 801 TP3T의 비용 절감 효과를 얻었습니다. AWS 비용 관리 도구를 사용한 모니터링을 통해 쿼리 비용을 효과적으로 관리할 수 있습니다.
자주 묻는 질문
Q1: Athena 쿼리 한 건당 비용은 얼마인가요?
-
요금은 스캔한 데이터 양에 따라 부과되며, TB당 5달러부터 시작하고 최소 쿼리 크기는 10MB입니다.
Q2: 조회에 실패할 경우 요금이 부과되나요?
-
아니요, Athena는 DDL이나 실패한 쿼리에 대해 요금을 부과하지 않습니다.
질문 3: Athena를 활용하여 비용 절감을 극대화하는 방법은 무엇입니까?
-
컬럼형 형식(Parquet/ORC)을 사용하세요.
-
데이터를 분할하세요
-
압축된 데이터 파일
-
EXPLAIN/EXPLAIN ANALYZE를 사용하여 쿼리를 최적화하세요
-
아이스버그 테이블 기능 사용하기
요약하다
AWS Athena는 투명한 스캔당 비용 청구 모델을 통해 비용을 효율적으로 관리할 수 있는 유연한 서버리스 데이터 분석 기능을 제공합니다. 컬럼형 스토리지, 데이터 파티셔닝, 압축, Iceberg 등의 최적화 전략을 활용하면 기업은 쿼리 비용을 최대 901 TP3T까지 절감할 수 있습니다. 이러한 기법을 숙달하면 쿼리 효율성을 향상시키고 예산을 효과적으로 관리하며 데이터 분석의 가치를 극대화할 수 있습니다.

