【超DL入門7】画像を処理するということは?

AI・生成AI

画像を見て「これは犬」「これは猫」と判断する処理は、人間の“目の働き”に近いそうです。
AIは画像をそのまま見ているわけではなく、画像を細かく分割して、特徴を見つけ、過去の記憶と照らし合わせて判断しています。

画像を分けて、特徴を見つける

まず、画像を小さな四角に分けて、部分ごとに注目します。これは「耳の形」「目の位置」「毛の模様」など、細かい特徴を見つけるためです。

このとき、画像の中の「どこに注目するか」「どんな模様があるか」を見つけるしくみが働いています。人間が「犬の耳っぽいな」と感じるように、AIも「この形は犬に多い」と判断する材料を集めているのです。たとえば犬の画像なら:

  • 左上の領域 → 耳の形(垂れている・横向き)
  • 中央の領域 → 目の位置(やや離れて楕円形)
  • 右下の領域 → 毛の模様(単色・斑点)

このように、画像の一部から「耳の形」「目の位置」「毛の模様」などの特徴を見つけていきます。

 ※正確には小さく画像データを分けるのではなく、小さく分けた画像にある「特徴」のみで処理されます(これを畳み込みというのですが、畳のように敷きつめたイメージだからですかね(笑)

必要な情報だけを残して整理する

見つけた特徴の中には、判断に必要ないものもあります。 たとえば背景の壁や空などは、「犬か猫か」を見分けるには関係ないかもしれません。

そこでAIは、「重要な特徴だけを残して、いらない情報は省く」という整理をします。 この整理によって、画像のデータは軽くなり、判断しやすくなります。

特徴を組み合わせて判断する

最後に、集めた特徴を組み合わせて、「これは犬に近い」「猫の特徴とは違う」といった判断をします。これは、過去に見た画像の記憶と照らし合わせて、「どちらに近いか?」を計算しているのです。たとえば「耳の位置」「目の形」「毛の模様」などの特徴を総合して、「犬猫っぽい」と判断します。

特徴犬の傾向猫の傾向
耳の位置横に垂れている上に立っている
目の形やや離れて楕円形丸くて中央寄り
毛の模様単色・斑点・まだら模様縞模様(タビー)など
  • 耳 → 立っていて尖っている → 猫の特徴に一致
  • 目 → 丸くて中央寄り → 猫の顔の特徴に近い
  • 毛 → 縞模様 → 猫種に多く見られるパターン

これらを総合して、「犬90%、猫10%」のような確率で判断するのです。

画像を処理とするというのは「見分ける」だけじゃない。「創り出す」こともできる

AIが画像を創り出す?

たとえば、犬の画像をたくさん見せて学習させたAIが、実在しない「犬っぽい画像」を自分で生成します。このしくみは、AIが「本物っぽく見えるか?」を自分で試行錯誤しながら、画像を改良していくというものです。

AI同士が競い合うことで進化する

このしくみの面白いところは、作るAIと見抜くAIの2つのAIが競い合うことで進化する点です。

  • 1つ目のAIは「画像を創る役」
  • 2つ目のAIは「それが本物かどうかを見抜く役」

この2つが何度も対決を繰り返すことで、画像はどんどんリアルになっていきます。
まるで「がん作職人」と「鑑定士」が競い合って、最終的に本物そっくりの作品ができるようなイメージです。この敵対する2つAIを競い合わせることにより生成AIの作る画像は飛躍的進歩をしたそうです。

関連記事

(補足)この記事で扱ったキーワード(G検定シラバスベース)

画素(ピクセル)、フィルタ(カーネル)、エッジ検出、プーリング、分類、活性化関数、全結合層、ソフトマックス、CNN、GAN(敵対的生成ネットワーク)

コメント