AIは画像をどう見分ける？CNNとGANのしくみをやさしく解説

画像を見て「これは犬」「これは猫」と判断する処理は、人間の“目の働き”に近いそうです。
AIは画像をそのまま見ているわけではなく、画像を細かく分割して、特徴を見つけ、過去の記憶と照らし合わせて判断しています。

画像を分けて、特徴を見つける

まず、画像を小さな四角に分けて、部分ごとに注目します。これは「耳の形」「目の位置」「毛の模様」など、細かい特徴を見つけるためです。

このとき、画像の中の「どこに注目するか」「どんな模様があるか」を見つけるしくみが働いています。人間が「犬の耳っぽいな」と感じるように、AIも「この形は犬に多い」と判断する材料を集めているのです。たとえば犬の画像なら：

このように、画像の一部から「耳の形」「目の位置」「毛の模様」などの特徴を見つけていきます。

　※正確には小さく画像データを分けるのではなく、小さく分けた画像にある「特徴」のみで処理されます（これを畳み込みというのですが、畳のように敷きつめたイメージだからですかね（笑）

見つけた特徴の中には、判断に必要ないものもあります。たとえば背景の壁や空などは、「犬か猫か」を見分けるには関係ないかもしれません。

そこでAIは、「重要な特徴だけを残して、いらない情報は省く」という整理をします。この整理によって、画像のデータは軽くなり、判断しやすくなります。

最後に、集めた特徴を組み合わせて、「これは犬に近い」「猫の特徴とは違う」といった判断をします。これは、過去に見た画像の記憶と照らし合わせて、「どちらに近いか？」を計算しているのです。たとえば「耳の位置」「目の形」「毛の模様」などの特徴を総合して、「犬猫っぽい」と判断します。

これらを総合して、「犬90%、猫10%」のような確率で判断するのです。

たとえば、犬の画像をたくさん見せて学習させたAIが、実在しない「犬っぽい画像」を自分で生成します。このしくみは、AIが「本物っぽく見えるか？」を自分で試行錯誤しながら、画像を改良していくというものです。

このしくみの面白いところは、作るAIと見抜くAIの2つのAIが競い合うことで進化する点です。

この2つが何度も対決を繰り返すことで、画像はどんどんリアルになっていきます。
まるで「がん作職人」と「鑑定士」が競い合って、最終的に本物そっくりの作品ができるようなイメージです。この敵対する２つAIを競い合わせることにより生成AIの作る画像は飛躍的進歩をしたそうです。

画素（ピクセル）、フィルタ（カーネル）、エッジ検出、プーリング、分類、活性化関数、全結合層、ソフトマックス、CNN、GAN（敵対的生成ネットワーク）