【DS検定対策15】データベース3種の違いと使い分け

データサイエンス

データサイエンスって「データを使って課題を解決する」というイメージは共有しやすいですね。しかし、データをどう蓄積するのか?スマホやパソコンのように、フォルダ切って、何でもかんでも入れときゃいいのか? 
ポイントは3か所に分けて保存するってところですが、DS検定の試験で出るとどれがどれだっけ?となるので整理しましょう。

  • データレイク:なんでも流れ込む「湖」
  • データウェアハウス(DWH):整理整頓された「大型倉庫」
  • データマート:部門ごとの「専門店」

データレイク:とりあえず全部ためる「湖」

名前のとおり、いろんな川から水(データ)がそのまま流れ込む湖(レイク)のイメージです。 整理は後まわしで、とりま 置いておくことを優先するポジションです。

  • 保存対象:表形式、JSON、ログ、画像、動画、音声など、生データをそのままOK
  • 方式:スキーマオンリード(保存時は手を加えず、使うときに整える)
  • 用途:AI・機械学習の素材、探索的な分析(とりあえず集めて、後で試す)

自分の理解では「まだ使い道が決まっていないけど、捨てるには惜しいデータを置いておく場所」。 必要なときに取り出して整形する感じですね。

データレイクに蓄積された大量・多様なデータは、Apache Spark や Hadoop(MapReduce)などの分散処理エンジン(複数のコンピュータに分けて同時に処理する)によって効率的に加工・抽出されます。

Spark

メモリ内にキャッシュすることで高速処理
「大鍋で一気に調理する料理人」のようなもので、特定のレコードだけを操作するような細かい処理は苦手

Hadoop(MapReduce)

HDFSを使用して分散ストレージに保存
「冷蔵庫から毎回材料を取り出して調理する」ような設計で、安定したバッチ処理に向いていますが、処理速度は遅め 

データレイク:とりあえず全部ためる「湖」

名前のとおり、いろんな川から水(データ)がそのまま流れ込む湖(レイク)のイメージです。整理は後まわしで、とりあえず置いておくことを優先するポジションです。

  • 保存対象:表形式、JSON、ログ、画像、動画、音声など、生データをそのままOK
  • 方式:スキーマオンリード(保存時は手を加えず、使うときに整える)
  • 用途:AI・機械学習の素材、探索的な分析(とりあえず集めて、後で試す)

自分の理解では「まだ使い道が決まっていないけど、捨てるには惜しいデータを置いておく場所」。必要なときに取り出して整形する感じですね。

データレイク × 分散処理基盤

データレイクに蓄積された大量・多様なデータは、以下のような分散処理基盤で活用されます:

Spark

  • メモリ内にキャッシュすることで高速処理
  • 「大鍋で一気に調理する料理人」のようなもので、特定のレコードだけを操作するような細かい処理は苦手
  • RDD(Resilient Distributed Dataset)は、不変で分散されたデータコレクション。並列処理や障害耐性に優れる
  • リアルタイム処理も可能(Spark Streamingなど)

Hadoop(MapReduce)

  • HDFSを使用して分散ストレージに保存
  • 「冷蔵庫から毎回材料を取り出して調理する」ような設計で、安定したバッチ処理に向いていますが、処理速度は遅め
  • MapReduceは複数ノードで並列処理を行い、結果を集約する仕組み

DWH(データウェアハウス):整理された「大型倉庫」

湖から持ってきたデータを整えて「分析に使える状態」に並べる大型倉庫です。 すぐに参照できるように、棚(テーブル)とルール(スキーマ)がきっちり決まっている感じです。

  • 保存対象:複数システムから集めた履歴データ(主に表形式の構造化データ)
  • 方式:スキーマオンライト(保存時に整形してから格納)
  • 用途:経営判断やBI(ダッシュボード・レポート)で即時に使う
  • 補足:リアルタイムの取引処理(OLTP)向きではない。分析用に特化

ここは「昨日の売上は?」「今月の傾向は?」にすぐ答えたい場面で効きます。

データマート:部門ごとの「専門店」

最後は大型倉庫(DWH)から必要な棚だけを持ってきて、部門ごとに使いやすくしたミニ店舗、専門店となります。

  • 位置づけ:DWHのサブセット(必要な部分だけ切り出し)
  • 用途:営業・マーケ・財務など、部門での迅速な分析
  • 注意点:作りすぎると「どれが正しいの?」問題(定義ズレ)が起きやすい

データマートは、Tableau(タブロー) や Power BI などの BI ツールと組み合わせることで、部門ごとの可視化やレポートが作成されます。

3種類の違いをざっくり整理

項目データレイクデータウェアハウスデータマート
保存データ生データ全般(構造・半構造・非構造)整形済みの構造化データDWHの一部
(部門用)
スキーマ使うときに定義(オンリード)保存時に定義(オンライト)DWHに準拠(部門向けに最適化)
主な利用者データサイエンティスト経営層・アナリスト部門担当者
強み柔軟・低コスト・AI向き品質・即時分析・BI向き小回り・部門最適・軽量
弱み整理されないと探索が難しい柔軟性が低い・整形コストがかかる乱立すると整合性が崩れやすい

まとめ:湖・倉庫・小売店でイメージ

  • データレイク=湖:生データを丸ごとためる場所(まずは集める)。
  • データウェアハウス(DWH)=倉庫:分析用に整理された大型倉庫(すぐ使える状態)。
  • データマート=小売店:部門ごとに必要な棚だけ取り出す(用途特化)。

「湖に全部ためて、倉庫で整理し、小売店で使う」──この流れを頭に描いておくと、 問題文の言い換えにも対応しやすくて、解くときの迷いが減りました。


コメント