決定木とデンドログラムって同じツリーの絵をしていますが、違うんでよ。知ってました?って私だけですかね。最近まで、ごっちゃになってたの。分類と回帰とか明確に分かれた後なら間違わないのでしょうが、DS検定の問題でその辺曖昧に前提や背景が見えないままピンポイントで出されるとうっかりミスが。。。 もったいないので整理しておきましょう。
機械学習の3分類と位置づけ
| 分類 | 学習タイプ | 代表的手法 | ラベルの有無 |
|---|---|---|---|
| 教師あり学習 | 正解ラベル付き | 分類、回帰 | あり |
| 教師なし学習 | ラベルなし | クラスタリング | なし |
| 強化学習 | 行動と報酬の繰り返し | Q学習など | 状況に応じて |
まずは、分類(classification)は教師あり学習、クラスタリング(clustering)は教師なし学習に属します。この時点で「分類=クラスタリング」という理解は誤りであることがわかります。これは大丈夫ですね。
クラスタリングの2系統:階層 vs 非階層
| 分類 | 特徴 | クラスター数 | 可視化 | 代表手法 |
|---|---|---|---|---|
| 階層 クラスタリング | データを段階的に統合・分割 | 不要 (後から決定) | ◯(デンドログラム) | ウォード法など |
| 非階層 クラスタリング | あらかじめクラスター数を指定 | 必要 (事前に決定) | ×(別途可視化) | K-means |
デンドログラムとは?
階層クラスタリングの結果をツリー構造で可視化したもの。
Y軸は「距離」や「非類似度」を示し、どこで切るかによってクラスター数が決まります。
クラスタリングの構造理解に役立つ重要な可視化手法です。
決定木との違い:構造は似て非なるもの
| 比較項目 | 決定木 | デンドログラム |
|---|---|---|
| 用途 | 分類・回帰 | 分類 |
| 学習タイプ | 教師あり 上から下 | 教師なし 下から上 |
| 枝の意味 | 条件分岐(if文) | データの結合順序 高さが グループ数決定 |
| 葉の意味 | クラス or 数値予測 | クラスター |

よくある混乱と整理ポイント
- 分類 ≠ クラスタリング:ラベルの有無が異なる
- デンドログラム ≠ 決定木:木構造でも意味が異なる
- クラスタリング = K-meansだけではない:階層型もある
使い分け例
| シナリオ | 適した手法 | 理由 |
|---|---|---|
| 顧客の自然なグループを発見 | 階層クラスタリング+デンドログラム | ラベルなし、構造発見 |
| 商品購入履歴からセグメント抽出 | K-means | クラスター数を指定しやすい |
| メールがスパムかどうか判定 | 決定木(分類) | ラベルあり、条件分岐が明確 |
| 売上予測 | 決定木(回帰) | 数値予測が目的 |
まとめ
- クラスタリングは教師なし、分類は教師あり
- 階層クラスタリングはデンドログラムで可視化
- 決定木は分類・回帰に使う教師ありモデル
- 木構造でも意味が違うので混同注意
📘 シリーズ記事の流れ
次の記事 ▶️:
【DS検定対策21】補足編 推薦・確率・次元・ELSIまで総整理
DS検定補足編の最終回。推薦システム、確率密度関数、可視化、次元の呪い、ハッシュ関数、ELSIまでを図表で総整理。

【DS検定対策19】補足編(その他重要項目)
DS検定対策の補足編として、指数・対数・実験計画・Docker・連合学習・REST/SOAP・不偏分散・コレログラム・弱定常性など、頻出かつ重要な周辺知識を一括整理。図表と例でわかりやすく解説。
📚 シリーズトップ:

DS検定対策シリーズ完全ガイド|全21記事で合格を目指す【目指せDi-Lite】
DS検定(データサイエンティスト検定リテラシーレベル)の合格を目指す全21記事の完全ガイド。数学・統計・機械学習を初心者向けに図解とLaTeX数式でわかりやすく解説。3回受験の失敗談から学ぶ効果的な勉強法・過学習対策も公開。Di-Lite認定(DX推進パスポート)取得を応援します。


コメント