【DS検定対策15】データベース3種の違いと使い分け

データサイエンスって「データを使って課題を解決する」というイメージは共有しやすいですね。しかし、データをどう蓄積するのか？スマホやパソコンのように、フォルダ切って、何でもかんでも入れときゃいいのか？　
ポイントは3か所に分けて保存するってところですが、DS検定の試験で出るとどれがどれだっけ？となるので整理しましょう。

データレイク：なんでも流れ込む「湖」
データウェアハウス（DWH）：整理整頓された「大型倉庫」
データマート：部門ごとの「専門店」

データレイク：とりあえず全部ためる「湖」

名前のとおり、いろんな川から水（データ）がそのまま流れ込む湖（レイク）のイメージです。整理は後まわしで、とりま　置いておくことを優先するポジションです。

保存対象：表形式、JSON、ログ、画像、動画、音声など、生データをそのままOK
方式：スキーマオンリード（保存時は手を加えず、使うときに整える）
用途：AI・機械学習の素材、探索的な分析（とりあえず集めて、後で試す）

自分の理解では「まだ使い道が決まっていないけど、捨てるには惜しいデータを置いておく場所」。必要なときに取り出して整形する感じですね。

データレイクに蓄積された大量・多様なデータは、Apache Spark や Hadoop（MapReduce）などの分散処理エンジン（複数のコンピュータに分けて同時に処理する）によって効率的に加工・抽出されます。

Spark

メモリ内にキャッシュすることで高速処理
「大鍋で一気に調理する料理人」のようなもので、特定のレコードだけを操作するような細かい処理は苦手

Hadoop（MapReduce）

HDFSを使用して分散ストレージに保存
「冷蔵庫から毎回材料を取り出して調理する」ような設計で、安定したバッチ処理に向いていますが、処理速度は遅め　

データレイク：とりあえず全部ためる「湖」

名前のとおり、いろんな川から水（データ）がそのまま流れ込む湖（レイク）のイメージです。整理は後まわしで、とりあえず置いておくことを優先するポジションです。

保存対象：表形式、JSON、ログ、画像、動画、音声など、生データをそのままOK
方式：スキーマオンリード（保存時は手を加えず、使うときに整える）
用途：AI・機械学習の素材、探索的な分析（とりあえず集めて、後で試す）

自分の理解では「まだ使い道が決まっていないけど、捨てるには惜しいデータを置いておく場所」。必要なときに取り出して整形する感じですね。

データレイク × 分散処理基盤

データレイクに蓄積された大量・多様なデータは、以下のような分散処理基盤で活用されます：

Spark

メモリ内にキャッシュすることで高速処理
「大鍋で一気に調理する料理人」のようなもので、特定のレコードだけを操作するような細かい処理は苦手
RDD（Resilient Distributed Dataset）は、不変で分散されたデータコレクション。並列処理や障害耐性に優れる
リアルタイム処理も可能（Spark Streamingなど）

Hadoop（MapReduce）

HDFSを使用して分散ストレージに保存
「冷蔵庫から毎回材料を取り出して調理する」ような設計で、安定したバッチ処理に向いていますが、処理速度は遅め
MapReduceは複数ノードで並列処理を行い、結果を集約する仕組み

DWH（データウェアハウス）：整理された「大型倉庫」

湖から持ってきたデータを整えて「分析に使える状態」に並べる大型倉庫です。すぐに参照できるように、棚（テーブル）とルール（スキーマ）がきっちり決まっている感じです。

保存対象：複数システムから集めた履歴データ（主に表形式の構造化データ）
方式：スキーマオンライト（保存時に整形してから格納）
用途：経営判断やBI（ダッシュボード・レポート）で即時に使う
補足：リアルタイムの取引処理（OLTP）向きではない。分析用に特化

ここは「昨日の売上は？」「今月の傾向は？」にすぐ答えたい場面で効きます。

データマート：部門ごとの「専門店」

最後は大型倉庫（DWH）から必要な棚だけを持ってきて、部門ごとに使いやすくしたミニ店舗、専門店となります。

位置づけ：DWHのサブセット（必要な部分だけ切り出し）
用途：営業・マーケ・財務など、部門での迅速な分析
注意点：作りすぎると「どれが正しいの？」問題（定義ズレ）が起きやすい

データマートは、Tableau（タブロー）や Power BI などの BI ツールと組み合わせることで、部門ごとの可視化やレポートが作成されます。

3種類の違いをざっくり整理

項目	データレイク	データウェアハウス	データマート
保存データ	生データ全般（構造・半構造・非構造）	整形済みの構造化データ	DWHの一部（部門用）
スキーマ	使うときに定義（オンリード）	保存時に定義（オンライト）	DWHに準拠（部門向けに最適化）
主な利用者	データサイエンティスト	経営層・アナリスト	部門担当者
強み	柔軟・低コスト・AI向き	品質・即時分析・BI向き	小回り・部門最適・軽量
弱み	整理されないと探索が難しい	柔軟性が低い・整形コストがかかる	乱立すると整合性が崩れやすい

まとめ：湖・倉庫・小売店でイメージ

データレイク＝湖：生データを丸ごとためる場所（まずは集める）。
データウェアハウス（DWH）＝倉庫：分析用に整理された大型倉庫（すぐ使える状態）。
データマート＝小売店：部門ごとに必要な棚だけ取り出す（用途特化）。

「湖に全部ためて、倉庫で整理し、小売店で使う」──この流れを頭に描いておくと、問題文の言い換えにも対応しやすくて、解くときの迷いが減りました。

📘 シリーズ記事の流れ

次の記事 ▶️：

【DS検定対策16】データベースの正規化をお弁当で理解｜初心者向け図解

データベースの正規化をお弁当の例でやさしく解説。第一正規化から第三正規化まで、図と表で初心者にもわかりやすく整理。DS検定対策にも最適。

◀️ 前の記事：

【DS検定対策14】バッチ正規化とは？深層学習の学習を安定させる技術

深層学習でよく使われるバッチ正規化（Batch Normalization）を初心者向けに解説。偏った出力を整えて学習を安定化する仕組みやなどDS検定対策です。

📚 シリーズトップ：

DS検定対策シリーズ完全ガイド｜全21記事で合格を目指す【目指せDi-Lite】

DS検定（データサイエンティスト検定リテラシーレベル）の合格を目指す全21記事の完全ガイド。数学・統計・機械学習を初心者向けに図解とLaTeX数式でわかりやすく解説。3回受験の失敗談から学ぶ効果的な勉強法・過学習対策も公開。Di-Lite認定（DX推進パスポート）取得を応援します。