データレイクハウスが注目される理由

データウェアハウス（第一世代データ基盤）

データウェアハウスは、ビジネス意思決定のためにデータを一つの場所に集約・保管し、分析に利用するためのデータ基盤であり、1980年代に考案されました。複数のデータソースからデータを取得してETL処理を行い、データウェアハウスにデータを蓄積していきます。データウェアハウスは、構造化データの処理に適していましたが、非構造化データ（文章や音声、画像など）のようにそのままでは利用できない複雑なデータの処理には適していませんでした。

データレイク（第二世代データ基盤：2層アーキテクチャ）

2000年代に入り、データウェアハウスの課題である非構造化データを分析するニーズが増えたことをきっかけに、データレイクが登場しました。データレイクは、テキストデータや画像、テキストなど構造化データ以外のデータも格納することができ、データ分析や機械学習で利用することができます。しかし、データレイクにはトランザクションのサポートやデータ品質の保証がありません。また、さまざまなデータを自由に格納できる反面、必要なデータが見つかりづらくなり、データスワンプ（活用ができないデータが大量に溜まっている）を引き起す懸念がありました。

データレイクハウス（次世代データ基盤）

データレイクハウスは、データウェアハウスとデータレイクの課題を克服しつつ、それぞれの利点を組み合わせたアーキテクチャになります。構成として、データウェアハウスと類似のデータ構造とデータ管理機能を持ちつつ、オープンフォーマットで低コストのクラウドストレージを利用しています。データレイクハウスは、安価で信頼性の高いオブジェクトストレージが利用可能であるため、最新のニーズに適したアーキテクチャと言えます。

ETLとは？

複数のバラバラなデータを “集めて・揃えて・使える形に変換する” のが ETL。

① Extract（取り出す）

複数のデータソースからデータを集める。

例：

売上は「ECサイトDB」
顧客情報は「CRM（Salesforce）」
広告コストは「Google Ads API」
アクセスログは「アプリログ」

これをそのままでは バラバラで結びつかない。

② Transform（変換する）

これが ETL の“肝”。

変換では以下をする：

✔ データ形式を揃える（型揃え）

日付フォーマットを統一
文字列/数値の不一致を修正

✔ キーの統合（ID統合）

顧客ID、店舗ID、商品IDなどを揃える
例：Salesforceのcustomer_id と EC の user_id を紐づける

✔ 不要なデータ除去・欠損値処理

不正データの除外
NULL の補完

✔ メトリクス用計算

売上 = price × quantity
CVR = conversions / clicks

✔ 正規化・結合処理

売上テーブル × 顧客テーブル × 広告テーブルなど

→ 変換（T）がなければデータは分析に使えません。

③ Load（格納する）

変換済みデータを

データウェアハウス（Snowflake / BigQuery / Redshift）
データレイク（S3 / GCS）
BIツールのモデル（Power BI / Looker）

などに保存する。

→ 分析やLLMが利用できる “きれいなデータ” になる。

専門用語

データマートとは 特定の業務目的のために最適化された分析用データベース のこと。

例：

売上データマート（Sales Mart）
マーケティングデータマート（Marketing Mart）
顧客行動データマート（User Behavior Mart）

特徴：

すでに整形済み（JOINや加工が済んでいる）
分析に必要な粒度にまとめられている
分析者やBIツールが使いやすい構造
生データより軽くて扱いやすい