
Data Governance Layer
Data Governance Layer は、Lakehouse で管理されるデータに対して
「適切な品質・セキュリティ・カタログ管理・アクセス制御」 を提供するレイヤーです。
組織全体で統一されたデータポリシーを適用し、データの信頼性とコンプライアンスを保証します。
また、メタデータ管理によってデータの探索・分類・系統(リネージ)を可視化し、
分析・AI モデル学習の前提となる データの“信頼性確保” を担います。
主に使用できるサービスは以下の通りです。
Dataplex:
データカタログ、リネージ、データ品質、セキュリティポリシー適用など、
データガバナンス全般を統合的に管理するサービスです。
データレイクと BigQuery のメタデータを一元的に管理し、
自動データ分類(PII 検出)やデータ品質チェックを行うことも可能です。
IAM / Cloud Identity:
ユーザー・グループに対する認可管理を提供します。
BigQuery や Cloud Storage に対して、最小権限で安全にアクセスさせることができます。
BigQuery Row / Column-level Security:
行レベル、列レベルでのアクセス制御が可能です。
機密データに対し、ユーザ属性に応じて可視範囲を制御できます。
Tags / Policy Tags(Dataplex Data Taxonomy):
データ分類タグや機密区分タグを列レベルで付与し、
アクセス制御ポリシーと連動させることができます。
Data Consumption Layer
Data Consumption Layer は、Lakehouse に蓄積されたデータをBI・分析・AI モデル・アプリケーション から利用するためのレイヤーです。
この層では、ユーザーが可視化・レポート・ダッシュボード作成・機械学習モデル構築などさまざまな目的でデータを活用します。また、LLM(大規模言語モデル)や AI サービスを通じた自然言語分析もここに含まれます。主に使用できるサービスは以下の通りです。
Looker / Looker Studio:
可視化ダッシュボードやレポート作成を行う BI ツールです。
LookML を利用したセマンティックモデルにより、
統一指標の管理と高精度なデータ分析が可能です。
BigQuery BI Engine:
インメモリで高速分析を可能にする BigQuery の分析アクセラレーターです。
Looker / Tableau / Power BI と組み合わせて高速なインタラクティブ分析ができます。
Vertex AI:
機械学習モデルの学習・推論、AutoML、LLM (Gemini) などを利用できます。
BigQuery と連携し、特徴量管理や SQL ベースの ML(BigQuery ML)とも統合されています。
BigQuery ML:
SQL だけで機械学習モデルの作成・学習・推論ができます。
データ移動不要で ML ワークフローが完結することが特徴です。
Data Storage Layer
Data Storage Layer では、構造化・半構造化・非構造化データを一元的に保存し、Lakehouse の基盤となる層 です。
ストレージはスケーラブルでコスト効率が高く、データは BigQuery・Spark・AI/ML などさまざまな処理系で利用できます。
メダリオンアーキテクチャ(Bronze / Silver / Gold)でのレイヤリングもこの層に含まれます。
主に使用できるサービスは以下の通りです。
BigQuery(Internal Storage / External Tables):
内部ストレージによる高速クエリ、外部テーブルによる Cloud Storage 連携など、多様な形でデータを扱えます。
Iceberg / Delta Lake / Parquet などのオープンテーブル形式にも対応します。
BigLake:
Cloud Storage 上のファイルを BigQuery の権限管理と統合し、Lakehouseとして利用可能にするストレージレイヤーです。
構造化/半構造化データを統一的なメタデータ管理で扱える点が特徴です。
Cloud Storage:
あらゆる種類のデータ(CSV、JSON、Parquet、画像、動画、ログなど)を保存できるオブジェクトストレージ。
BigLake と組み合わせて Lakehouse のデータレイク部分を構成します。
Data Ingestion Layer
Data Ingestion Layer は、さまざまなデータソースからデータを取得し、Lakehouse に取り込むレイヤー です。
バッチ処理・ストリーミング処理の両方を扱い、データの種類や用途に応じた最適な取り込み方式を選択できます。主に使用できるサービスは以下の通りです。
BigQuery Data Transfer Service:
Google SaaS(Google Ads、YouTube、Campaign Manager など)や外部サービスのデータを定期的に BigQuery に転送するマネージドサービスです。
Storage Transfer Service:
オンプレミスや他クラウド(Amazon S3 / Azure Blob)からの大規模データ移行を行うサービスです。
Datastream(CDC):
Cloud SQL / MySQL / Oracle などから変更データキャプチャ(CDC)でリアルタイムにデータを取り込むためのサービスです。
Pub/Sub:
アプリケーションイベント、IoTデータ、ログなどをリアルタイムに取り込むメッセージングサービスです。
Cloud Data Fusion:
GUIでデータソース接続を管理し、ETL/ELT パイプラインを構築してデータを取り込むことができます。
Data Processing Layer
BigQuery は、Lakehouse Layer 上のデータを SQL によって変換する際の中心的なサービスです。
- ETL/ELT の “T(Transform)” を DWH 内で完結
- ストアドプロシージャ、UDF(ユーザー定義関数)、テーブル関数に対応
- Apache Spark 用のストアドプロシージャにより Spark ワークロードも実行可能
- Remote Function により Cloud Functions / Cloud Run を SQL から呼び出せる → 外部APIやLLMモデルを直接参照するワークフローも実現可能



