Agile育成ブログ
未来を変える喜びを
未分類

Google Cloud でのデータレイクハウス

Data Governance Layer

Data Governance Layer は、Lakehouse で管理されるデータに対して

「適切な品質・セキュリティ・カタログ管理・アクセス制御」 を提供するレイヤーです。

組織全体で統一されたデータポリシーを適用し、データの信頼性とコンプライアンスを保証します。

また、メタデータ管理によってデータの探索・分類・系統(リネージ)を可視化し、

分析・AI モデル学習の前提となる データの“信頼性確保” を担います。

主に使用できるサービスは以下の通りです。

Dataplex:

データカタログ、リネージ、データ品質、セキュリティポリシー適用など、

データガバナンス全般を統合的に管理するサービスです。

データレイクと BigQuery のメタデータを一元的に管理し、

自動データ分類(PII 検出)やデータ品質チェックを行うことも可能です。

IAM / Cloud Identity:

ユーザー・グループに対する認可管理を提供します。

BigQuery や Cloud Storage に対して、最小権限で安全にアクセスさせることができます。

BigQuery Row / Column-level Security:

行レベル、列レベルでのアクセス制御が可能です。

機密データに対し、ユーザ属性に応じて可視範囲を制御できます。

Tags / Policy Tags(Dataplex Data Taxonomy):

データ分類タグや機密区分タグを列レベルで付与し、
アクセス制御ポリシーと連動させることができます。

Data Consumption Layer

Data Consumption Layer は、Lakehouse に蓄積されたデータをBI・分析・AI モデル・アプリケーション から利用するためのレイヤーです。
この層では、ユーザーが可視化・レポート・ダッシュボード作成・機械学習モデル構築などさまざまな目的でデータを活用します。また、LLM(大規模言語モデル)や AI サービスを通じた自然言語分析もここに含まれます。主に使用できるサービスは以下の通りです。

Looker / Looker Studio:

可視化ダッシュボードやレポート作成を行う BI ツールです。
LookML を利用したセマンティックモデルにより、
統一指標の管理と高精度なデータ分析が可能です。

BigQuery BI Engine:

インメモリで高速分析を可能にする BigQuery の分析アクセラレーターです。
Looker / Tableau / Power BI と組み合わせて高速なインタラクティブ分析ができます。

Vertex AI:

機械学習モデルの学習・推論、AutoML、LLM (Gemini) などを利用できます。
BigQuery と連携し、特徴量管理や SQL ベースの ML(BigQuery ML)とも統合されています。

BigQuery ML:

SQL だけで機械学習モデルの作成・学習・推論ができます。
データ移動不要で ML ワークフローが完結することが特徴です。

Data Storage Layer

Data Storage Layer では、構造化・半構造化・非構造化データを一元的に保存し、Lakehouse の基盤となる層 です。
ストレージはスケーラブルでコスト効率が高く、データは BigQuery・Spark・AI/ML などさまざまな処理系で利用できます。
メダリオンアーキテクチャ(Bronze / Silver / Gold)でのレイヤリングもこの層に含まれます。
主に使用できるサービスは以下の通りです。

BigQuery(Internal Storage / External Tables):

内部ストレージによる高速クエリ、外部テーブルによる Cloud Storage 連携など、多様な形でデータを扱えます。
Iceberg / Delta Lake / Parquet などのオープンテーブル形式にも対応します。

BigLake:

Cloud Storage 上のファイルを BigQuery の権限管理と統合し、Lakehouseとして利用可能にするストレージレイヤーです。
構造化/半構造化データを統一的なメタデータ管理で扱える点が特徴です。

Cloud Storage:

あらゆる種類のデータ(CSV、JSON、Parquet、画像、動画、ログなど)を保存できるオブジェクトストレージ。
BigLake と組み合わせて Lakehouse のデータレイク部分を構成します。

Data Ingestion Layer

Data Ingestion Layer は、さまざまなデータソースからデータを取得し、Lakehouse に取り込むレイヤー です。
バッチ処理・ストリーミング処理の両方を扱い、データの種類や用途に応じた最適な取り込み方式を選択できます。主に使用できるサービスは以下の通りです。

BigQuery Data Transfer Service:

Google SaaS(Google Ads、YouTube、Campaign Manager など)や外部サービスのデータを定期的に BigQuery に転送するマネージドサービスです。

Storage Transfer Service:

オンプレミスや他クラウド(Amazon S3 / Azure Blob)からの大規模データ移行を行うサービスです。

Datastream(CDC):

Cloud SQL / MySQL / Oracle などから変更データキャプチャ(CDC)でリアルタイムにデータを取り込むためのサービスです。

Pub/Sub:

アプリケーションイベント、IoTデータ、ログなどをリアルタイムに取り込むメッセージングサービスです。

Cloud Data Fusion:

GUIでデータソース接続を管理し、ETL/ELT パイプラインを構築してデータを取り込むことができます。

Data Processing Layer

BigQuery は、Lakehouse Layer 上のデータを SQL によって変換する際の中心的なサービスです。

  • ETL/ELT の “T(Transform)” を DWH 内で完結
  • ストアドプロシージャ、UDF(ユーザー定義関数)、テーブル関数に対応
  • Apache Spark 用のストアドプロシージャにより Spark ワークロードも実行可能
  • Remote Function により Cloud Functions / Cloud Run を SQL から呼び出せる → 外部APIやLLMモデルを直接参照するワークフローも実現可能