画像を見て「これは犬」「これは猫」と判断する処理は、人間の“目の働き”に近いそうです。
AIは画像をそのまま見ているわけではなく、画像を細かく分割して、特徴を見つけ、過去の記憶と照らし合わせて判断しています。
画像を分けて、特徴を見つける
まず、画像を小さな四角に分けて、部分ごとに注目します。これは「耳の形」「目の位置」「毛の模様」など、細かい特徴を見つけるためです。

このとき、画像の中の「どこに注目するか」「どんな模様があるか」を見つけるしくみが働いています。人間が「犬の耳っぽいな」と感じるように、AIも「この形は犬に多い」と判断する材料を集めているのです。たとえば犬の画像なら:
- 左上の領域 → 耳の形(垂れている・横向き)
- 中央の領域 → 目の位置(やや離れて楕円形)
- 右下の領域 → 毛の模様(単色・斑点)
このように、画像の一部から「耳の形」「目の位置」「毛の模様」などの特徴を見つけていきます。
※正確には小さく画像データを分けるのではなく、小さく分けた画像にある「特徴」のみで処理されます(これを畳み込みというのですが、畳のように敷きつめたイメージだからですかね(笑)
必要な情報だけを残して整理する
見つけた特徴の中には、判断に必要ないものもあります。 たとえば背景の壁や空などは、「犬か猫か」を見分けるには関係ないかもしれません。
そこでAIは、「重要な特徴だけを残して、いらない情報は省く」という整理をします。 この整理によって、画像のデータは軽くなり、判断しやすくなります。

特徴を組み合わせて判断する
最後に、集めた特徴を組み合わせて、「これは犬に近い」「猫の特徴とは違う」といった判断をします。これは、過去に見た画像の記憶と照らし合わせて、「どちらに近いか?」を計算しているのです。たとえば「耳の位置」「目の形」「毛の模様」などの特徴を総合して、「犬猫っぽい」と判断します。
| 特徴 | 犬の傾向 | 猫の傾向 |
|---|---|---|
| 耳の位置 | 横に垂れている | 上に立っている |
| 目の形 | やや離れて楕円形 | 丸くて中央寄り |
| 毛の模様 | 単色・斑点・まだら模様 | 縞模様(タビー)など |
- 耳 → 立っていて尖っている → 猫の特徴に一致
- 目 → 丸くて中央寄り → 猫の顔の特徴に近い
- 毛 → 縞模様 → 猫種に多く見られるパターン
これらを総合して、「犬90%、猫10%」のような確率で判断するのです。
画像を処理とするというのは「見分ける」だけじゃない。「創り出す」こともできる
AIが画像を創り出す?
たとえば、犬の画像をたくさん見せて学習させたAIが、実在しない「犬っぽい画像」を自分で生成します。このしくみは、AIが「本物っぽく見えるか?」を自分で試行錯誤しながら、画像を改良していくというものです。
AI同士が競い合うことで進化する
このしくみの面白いところは、作るAIと見抜くAIの2つのAIが競い合うことで進化する点です。
- 1つ目のAIは「画像を創る役」
- 2つ目のAIは「それが本物かどうかを見抜く役」
この2つが何度も対決を繰り返すことで、画像はどんどんリアルになっていきます。
まるで「がん作職人」と「鑑定士」が競い合って、最終的に本物そっくりの作品ができるようなイメージです。この敵対する2つAIを競い合わせることにより生成AIの作る画像は飛躍的進歩をしたそうです。
関連記事
- 【DL超入門1】ディープラーニングとは?初心者でもわかるAIの基本と仕組み
- 【DL超入門2】ディープラーニングの学習方法 ― 回帰・分類・強化学習をわかりやすく解説
- 【DL超入門3】AI開発のカギはデータ準備 ― 良質なデータがディープラーニングを支える
- 【DL超入門4】AIが学習する仕組み ― 誤差最小化と過学習の問題をわかりやすく解説
- 【DL超入門5】「自然言語処理」ってなに?
- 【DL超入門6】ChatGPTってなに?
- 【DL超入門7】画像を処理するということは?CNNとGANのしくみをやさしく解説
- 【DL超入門8】動画(時系列データ)の扱い方 ― RNN(再帰型ニューラルネットワーク)とは?
(補足)この記事で扱ったキーワード(G検定シラバスベース)
画素(ピクセル)、フィルタ(カーネル)、エッジ検出、プーリング、分類、活性化関数、全結合層、ソフトマックス、CNN、GAN(敵対的生成ネットワーク)


コメント