AWS Iceberg：建構現代資料湖的關鍵表格式選擇

12 月23, 2025

在企業全面邁向資料驅動的過程中，資料湖早已成為承載海量業務數據的基礎設施。然而，越來越多企業在實務中發現：

“數據能存進S3，並不等於數據就好用。”

表結構難以演進、更新刪除成本高、多引擎並發存取衝突、歷史資料無法回溯……這些問題，讓傳統資料湖逐漸成為新的技術負擔。

在這一背景下，Apache Iceberg 正逐步成為AWS 官方重點支援的現代資料湖表格式之一，而圍繞它建構的 AWS Iceberg 方案，也正在成為企業資料平台升級的重要方向。

什麼是AWS Iceberg？

需要先澄清的是：

AWS Iceberg 並非單獨的AWS 服務。

通常所說的 AWS Iceberg，指的是在AWS 雲端上，基於 Apache Iceberg 表格式，結合多項AWS 原生服務所建構的現代資料湖架構，例如：

Amazon S3：底層資料存儲
Apache Iceberg：表格式與元資料管理規範
AWS Glue Data Catalog：統一元資料目錄
Amazon Athena / EMR / Redshift：查詢與計算引擎

這種架構既保留了資料湖的低成本與高擴展性，也引入了接近資料倉儲層級的管理與一致性能力。

為什麼傳統資料湖越來越「難用」？

在許多企業中，傳統資料湖通常是：

S3 + Parquet + Hive Metastore

這種模式在早期非常有效，但隨著資料規模和業務複雜度提升，問題逐漸顯現：

只支援追加寫，更新刪除極為困難
分區設計一旦不合理，後期幾乎無法調整
查詢引擎需要掃描大量無關文件，效能不可控
多個引擎並發寫入，容易產生資料不一致

這些痛點，並不是儲存或算力不足造成的，而是表管理能力缺失。

Apache Iceberg 帶來了哪些關鍵能力？

Apache Iceberg 的核心價值，在於它為資料湖引入了一套標準化、引擎無關的表格管理機制。

1. 真正支援UPDATE / DELETE / MERGE

Iceberg 支援行層級的資料修改，而不需要重寫整張表：

適用於訂單修正、狀態變更、資料糾錯等場景
對業務分析系統更加友善

2. Time Travel（時間旅行）

Iceberg 會儲存表格的歷史快照，支援：

查詢歷史版本數據
數據審計
回滾誤操作

這在合規、金融、資料治理場景中尤其重要。

3. 高效能查詢與隱藏檔案複雜度

Iceberg 透過維護完整的元資料（檔案清單、分區資訊、統計資料）：

查詢引擎無需掃描S3 目錄
只讀取真正相關的資料文件
顯著提升Athena、Trino、Spark 的查詢效率

4. 多引擎並發訪問，避免廠商鎖定

同一份Iceberg 表可以被：

Athena 查詢
EMR Spark 寫入
Redshift Spectrum 分析

而無需為不同引擎維護多套資料副本，這對於企業長期架構演進尤為關鍵。

AWS 對Iceberg 的官方支援情況

AWS 已在多個核心服務中原生支援Apache Iceberg：

1.Amazon Athena

原生支援Iceberg 表
支援INSERT / UPDATE / DELETE / MERGE

2.AWS Glue

Glue Catalog 作為Iceberg 的元資料目錄
Glue Job（Spark）可直接讀寫Iceberg 表

3.Amazon EMR

Spark / Trino / Flink 全面支持Iceberg
Amazon Redshift
透過Redshift Spectrum 查詢Iceberg 表
Redshift Serverless 同樣適用

這意味著：

Iceberg 已不再是“實驗性選擇”，而是AWS 官方認可的主流資料湖方案。

Iceberg 適合哪些企業場景？

從我們在實際客戶專案中的經驗來看，以下場景非常適合引入AWS Iceberg：

資料湖與資料倉儲一體化建設
需要頻繁更新或修正分析數據
多個分析引擎並行使用（BI + 數據科學+ 即時分析）
希望避免被單一資料平台或廠商深度綁定
對資料治理、審計、可追溯性有要求的企業

作為AWS 代理商

雖然Iceberg 能力強大，但真正的挑戰在於落地方案設計：

表分區與演進策略如何規劃？
元資料規模如何控制？
Athena、EMR、Redshift 如何合理分工？
成本如何在S3、運算引擎之間平衡？

作為 AWS 官方認證代理商，在雲端上在資料湖與分析平台建置中，通常會結合：

企業業務模型與查詢模式
成本預算與績效目標
現有數倉或Hadoop 體系遷移需求

為客戶設計 可長期演進、可控製成本、可運維的Iceberg 資料湖方案，而不是簡單「把表格式換成Iceberg」。

結語

Apache Iceberg 並不是讓資料湖變得複雜，而是讓資料湖變得「可管理」。

在AWS 雲端上，Iceberg 正成為連接資料湖與資料倉儲的關鍵橋樑。對於希望建構下一代資料平台的企業而言，AWS Iceberg 不是是否選擇的問題，而是「何時引入、如何正確引入」的問題。

AWS Iceberg：建構現代資料湖的關鍵表格式選擇

什麼是AWS Iceberg？

為什麼傳統資料湖越來越「難用」？

Apache Iceberg 帶來了哪些關鍵能力？

1. 真正支援UPDATE / DELETE / MERGE

2. Time Travel（時間旅行）

3. 高效能查詢與隱藏檔案複雜度

4. 多引擎並發訪問，避免廠商鎖定

AWS 對Iceberg 的官方支援情況

1.Amazon Athena

2.AWS Glue

3.Amazon EMR

Iceberg 適合哪些企業場景？

作為AWS 代理商

結語

更多探索

AWS S3 儲存桶完全指南：從基礎配置到生產級應用

Tell me what you need

AWS Iceberg：建構現代資料湖的關鍵表格式選擇

什麼是AWS Iceberg？

為什麼傳統資料湖越來越「難用」？

Apache Iceberg 帶來了哪些關鍵能力？

1. 真正支援UPDATE / DELETE / MERGE

2. Time Travel（時間旅行）

3. 高效能查詢與隱藏檔案複雜度

4. 多引擎並發訪問，避免廠商鎖定

AWS 對Iceberg 的官方支援情況

1.Amazon Athena

2.AWS Glue

3.Amazon EMR

Iceberg 適合哪些企業場景？

作為AWS 代理商

結語

更多探索

AWS RDS vs Aurora 深度比較：如何選擇適合出海業務的資料庫？

AWS S3 儲存桶完全指南：從基礎配置到生產級應用

Tell me what you need