Agile育成ブログ
未来を変える喜びを
未分類

データレイクハウスが注目される理由

データウェアハウス(第一世代データ基盤)

データウェアハウスは、ビジネス意思決定のためにデータを一つの場所に集約・保管し、分析に利用するためのデータ基盤であり、1980年代に考案されました。複数のデータソースからデータを取得してETL処理を行い、データウェアハウスにデータを蓄積していきます。データウェアハウスは、構造化データの処理に適していましたが、非構造化データ(文章や音声、画像など)のようにそのままでは利用できない複雑なデータの処理には適していませんでした。

データレイク(第二世代データ基盤:2層アーキテクチャ)

2000年代に入り、データウェアハウスの課題である非構造化データを分析するニーズが増えたことをきっかけに、データレイクが登場しました。データレイクは、テキストデータや画像、テキストなど構造化データ以外のデータも格納することができ、データ分析や機械学習で利用することができます。しかし、データレイクにはトランザクションのサポートやデータ品質の保証がありません。また、さまざまなデータを自由に格納できる反面、必要なデータが見つかりづらくなり、データスワンプ(活用ができないデータが大量に溜まっている)を引き起す懸念がありました。

データレイクハウス(次世代データ基盤)

データレイクハウスは、データウェアハウスとデータレイクの課題を克服しつつ、それぞれの利点を組み合わせたアーキテクチャになります。構成として、データウェアハウスと類似のデータ構造とデータ管理機能を持ちつつ、オープンフォーマットで低コストのクラウドストレージを利用しています。データレイクハウスは、安価で信頼性の高いオブジェクトストレージが利用可能であるため、最新のニーズに適したアーキテクチャと言えます。

ETLとは?

複数のバラバラなデータを “集めて・揃えて・使える形に変換する” のが ETL。

① Extract(取り出す)

複数のデータソースからデータを集める。

例:

  • 売上は「ECサイトDB」
  • 顧客情報は「CRM(Salesforce)」
  • 広告コストは「Google Ads API」
  • アクセスログは「アプリログ」

これをそのままでは バラバラで結びつかない


② Transform(変換する)

これが ETL の“肝”。

変換では以下をする:

✔ データ形式を揃える(型揃え)

  • 日付フォーマットを統一
  • 文字列/数値の不一致を修正

✔ キーの統合(ID統合)

  • 顧客ID、店舗ID、商品IDなどを揃える
  • 例:Salesforceのcustomer_id と EC の user_id を紐づける

✔ 不要なデータ除去・欠損値処理

  • 不正データの除外
  • NULL の補完

✔ メトリクス用計算

  • 売上 = price × quantity
  • CVR = conversions / clicks

✔ 正規化・結合処理

  • 売上テーブル × 顧客テーブル × 広告テーブル など

変換(T)がなければデータは分析に使えません。


③ Load(格納する)

変換済みデータを

  • データウェアハウス(Snowflake / BigQuery / Redshift)
  • データレイク(S3 / GCS)
  • BIツールのモデル(Power BI / Looker)

などに保存する。

分析やLLMが利用できる “きれいなデータ” になる。

専門用語


データマートとは 特定の業務目的のために最適化された分析用データベース のこと。

例:

  • 売上データマート(Sales Mart)
  • マーケティングデータマート(Marketing Mart)
  • 顧客行動データマート(User Behavior Mart)

特徴:

  • すでに整形済み(JOINや加工が済んでいる)
  • 分析に必要な粒度にまとめられている
  • 分析者やBIツールが使いやすい構造
  • 生データより軽くて扱いやすい