データサイエンスって「データを使って課題を解決する」というイメージは共有しやすいですね。しかし、データをどう蓄積するのか?スマホやパソコンのように、フォルダ切って、何でもかんでも入れときゃいいのか?
ポイントは3か所に分けて保存するってところですが、DS検定の試験で出るとどれがどれだっけ?となるので整理しましょう。
- データレイク:なんでも流れ込む「湖」
- データウェアハウス(DWH):整理整頓された「大型倉庫」
- データマート:部門ごとの「専門店」
データレイク:とりあえず全部ためる「湖」
名前のとおり、いろんな川から水(データ)がそのまま流れ込む湖(レイク)のイメージです。 整理は後まわしで、とりま 置いておくことを優先するポジションです。
- 保存対象:表形式、JSON、ログ、画像、動画、音声など、生データをそのままOK
- 方式:スキーマオンリード(保存時は手を加えず、使うときに整える)
- 用途:AI・機械学習の素材、探索的な分析(とりあえず集めて、後で試す)
自分の理解では「まだ使い道が決まっていないけど、捨てるには惜しいデータを置いておく場所」。 必要なときに取り出して整形する感じですね。
データレイクに蓄積された大量・多様なデータは、Apache Spark や Hadoop(MapReduce)などの分散処理エンジン(複数のコンピュータに分けて同時に処理する)によって効率的に加工・抽出されます。
Spark
メモリ内にキャッシュすることで高速処理
「大鍋で一気に調理する料理人」のようなもので、特定のレコードだけを操作するような細かい処理は苦手
Hadoop(MapReduce)
HDFSを使用して分散ストレージに保存
「冷蔵庫から毎回材料を取り出して調理する」ような設計で、安定したバッチ処理に向いていますが、処理速度は遅め
データレイク:とりあえず全部ためる「湖」
名前のとおり、いろんな川から水(データ)がそのまま流れ込む湖(レイク)のイメージです。整理は後まわしで、とりあえず置いておくことを優先するポジションです。
- 保存対象:表形式、JSON、ログ、画像、動画、音声など、生データをそのままOK
- 方式:スキーマオンリード(保存時は手を加えず、使うときに整える)
- 用途:AI・機械学習の素材、探索的な分析(とりあえず集めて、後で試す)
自分の理解では「まだ使い道が決まっていないけど、捨てるには惜しいデータを置いておく場所」。必要なときに取り出して整形する感じですね。
データレイク × 分散処理基盤
データレイクに蓄積された大量・多様なデータは、以下のような分散処理基盤で活用されます:
Spark
- メモリ内にキャッシュすることで高速処理
- 「大鍋で一気に調理する料理人」のようなもので、特定のレコードだけを操作するような細かい処理は苦手
- RDD(Resilient Distributed Dataset)は、不変で分散されたデータコレクション。並列処理や障害耐性に優れる
- リアルタイム処理も可能(Spark Streamingなど)
Hadoop(MapReduce)
- HDFSを使用して分散ストレージに保存
- 「冷蔵庫から毎回材料を取り出して調理する」ような設計で、安定したバッチ処理に向いていますが、処理速度は遅め
- MapReduceは複数ノードで並列処理を行い、結果を集約する仕組み
DWH(データウェアハウス):整理された「大型倉庫」
湖から持ってきたデータを整えて「分析に使える状態」に並べる大型倉庫です。 すぐに参照できるように、棚(テーブル)とルール(スキーマ)がきっちり決まっている感じです。
- 保存対象:複数システムから集めた履歴データ(主に表形式の構造化データ)
- 方式:スキーマオンライト(保存時に整形してから格納)
- 用途:経営判断やBI(ダッシュボード・レポート)で即時に使う
- 補足:リアルタイムの取引処理(OLTP)向きではない。分析用に特化
ここは「昨日の売上は?」「今月の傾向は?」にすぐ答えたい場面で効きます。
データマート:部門ごとの「専門店」
最後は大型倉庫(DWH)から必要な棚だけを持ってきて、部門ごとに使いやすくしたミニ店舗、専門店となります。
- 位置づけ:DWHのサブセット(必要な部分だけ切り出し)
- 用途:営業・マーケ・財務など、部門での迅速な分析
- 注意点:作りすぎると「どれが正しいの?」問題(定義ズレ)が起きやすい
データマートは、Tableau(タブロー) や Power BI などの BI ツールと組み合わせることで、部門ごとの可視化やレポートが作成されます。
3種類の違いをざっくり整理
| 項目 | データレイク | データウェアハウス | データマート |
|---|---|---|---|
| 保存データ | 生データ全般(構造・半構造・非構造) | 整形済みの構造化データ | DWHの一部 (部門用) |
| スキーマ | 使うときに定義(オンリード) | 保存時に定義(オンライト) | DWHに準拠(部門向けに最適化) |
| 主な利用者 | データサイエンティスト | 経営層・アナリスト | 部門担当者 |
| 強み | 柔軟・低コスト・AI向き | 品質・即時分析・BI向き | 小回り・部門最適・軽量 |
| 弱み | 整理されないと探索が難しい | 柔軟性が低い・整形コストがかかる | 乱立すると整合性が崩れやすい |
まとめ:湖・倉庫・小売店でイメージ
- データレイク=湖:生データを丸ごとためる場所(まずは集める)。
- データウェアハウス(DWH)=倉庫:分析用に整理された大型倉庫(すぐ使える状態)。
- データマート=小売店:部門ごとに必要な棚だけ取り出す(用途特化)。
「湖に全部ためて、倉庫で整理し、小売店で使う」──この流れを頭に描いておくと、 問題文の言い換えにも対応しやすくて、解くときの迷いが減りました。
📘 シリーズ記事の流れ
次の記事 ▶️:

📚 シリーズトップ:



コメント