【DS検定対策20】補足編 分類・クラスタリング・決定木・デンドログラムの違い

データサイエンス

 決定木とデンドログラムって同じツリーの絵をしていますが、違うんでよ。知ってました?って私だけですかね。最近まで、ごっちゃになってたの。分類と回帰とか明確に分かれた後なら間違わないのでしょうが、DS検定の問題でその辺曖昧に前提や背景が見えないままピンポイントで出されるとうっかりミスが。。。 もったいないので整理しておきましょう。

機械学習の3分類と位置づけ

分類学習タイプ代表的手法ラベルの有無
教師あり学習正解ラベル付き分類、回帰あり
教師なし学習ラベルなしクラスタリングなし
強化学習行動と報酬の繰り返しQ学習など状況に応じて

まずは、分類(classification)は教師あり学習、クラスタリング(clustering)は教師なし学習に属します。この時点で「分類=クラスタリング」という理解は誤りであることがわかります。これは大丈夫ですね。

クラスタリングの2系統:階層 vs 非階層

分類特徴クラスター数可視化代表手法
階層
クラスタリング
データを段階的に統合・分割不要
(後から決定)
(デンドログラム)ウォード法など
非階層
クラスタリング
あらかじめクラスター数を指定必要
(事前に決定)
×(別途可視化)K-means

デンドログラムとは?

階層クラスタリングの結果をツリー構造で可視化したもの。
Y軸は「距離」や「非類似度」を示し、どこで切るかによってクラスター数が決まります。
クラスタリングの構造理解に役立つ重要な可視化手法です。

決定木との違い:構造は似て非なるもの

比較項目決定木デンドログラム
用途分類・回帰分類
学習タイプ教師あり 上から下教師なし 下から上
枝の意味条件分岐(if文)データの結合順序
高さが グループ数決定
葉の意味クラス or 数値予測クラスター

よくある混乱と整理ポイント

  • 分類 ≠ クラスタリング:ラベルの有無が異なる
  • デンドログラム ≠ 決定木:木構造でも意味が異なる
  • クラスタリング = K-meansだけではない:階層型もある

使い分け例

シナリオ適した手法理由
顧客の自然なグループを発見階層クラスタリング+デンドログラムラベルなし、構造発見
商品購入履歴からセグメント抽出K-meansクラスター数を指定しやすい
メールがスパムかどうか判定決定木(分類)ラベルあり、条件分岐が明確
売上予測決定木(回帰)数値予測が目的

まとめ

  • クラスタリングは教師なし、分類は教師あり
  • 階層クラスタリングはデンドログラムで可視化
  • 決定木は分類・回帰に使う教師ありモデル
  • 木構造でも意味が違うので混同注意

コメント