画像は「一瞬」を切り取ったものですが、動画や音声、株価のようなデータは「時間の流れ」があります。AIがこうした“連続する情報”を理解するには、時間の順番を意識したしくみが必要です。
動画は「パラパラ漫画 = 連続する画像」
たとえば犬が走っている動画を考えてみましょう。
1枚の画像では「犬がいる」ことはわかりますが、「走っている」ことはわかりません。
でも、連続した画像(フレーム)を見れば:
- 1枚目 → 犬が左にいる
- 2枚目 → 犬が中央にいる
- 3枚目 → 犬が右にいる
このように「時間の変化」を見ることで、「犬が走っている」と判断できるのです。
時間の流れを覚えるしくみ ― RNN
こうした「時間の流れ」を扱うためには今の情報だけでなく「過去の情報も覚えておく」しくみが必要です。
たとえば:
- 1秒前 → 犬がジャンプし始めた
- 今 → 犬が空中にいる
- 次 → 犬が着地する
このように、「前の状態」を記憶しながら、次の判断に活かします。
動画だけじゃない ― 音声・株価・文章にも
時系列を扱うというのは動画だけでなく、音声や株価、文章などにも使われます。
| データの種類 | 時間の流れ | 役割 |
|---|---|---|
| 音声 | 音の高さやリズムが変化する | 言葉の意味や感情を理解する |
| 株価 | 価格が時間とともに上下する | 次の動きを予測する |
| 文章 | 単語が順番に並ぶ | 文の意味や文脈を理解する |
時系列処理の進化
このように「前の状態」を記憶しながらという方法は「長い記憶」を克服する必要があります。人も長時間分の丸暗記は難しいでよね。そこで弱点を補うために登場したのが:
- 重要な情報だけを長く覚える
- 記憶の整理を効率化
で、長い時間の流れを扱えるようになっています。(私はこれができない(笑)
動画を理解するAIのしくみ
動画を見て「ジャンプしている」「走っている」と判断するAIは、以下のような流れで動いています:
- 動画をフレーム(画像)に分ける
- 各フレームの特徴をCNNで抽出する
- 時間の流れをRNNでつなげて理解する
- 「動き」や「行動」を判断する
つまり、CNN+RNNの組み合わせで「動きのある世界」を理解しているのです。
なお、動画(時系列データ)もChatGPTと同様に、全体を俯瞰して重要な部分に注意をすアテンション処理を導入したTransformerという手法により、並列で高速な計算が可能になって超進化をしています。
関連記事(シリーズ全体)
- 【DL超入門1】ディープラーニングとは?初心者でもわかるAIの基本と仕組み
- 【DL超入門2】ディープラーニングの学習方法 ― 回帰・分類・強化学習をわかりやすく解説
- 【DL超入門3】AI開発のカギはデータ準備 ― 良質なデータがディープラーニングを支える
- 【DL超入門4】AIが学習する仕組み ― 誤差最小化と過学習の問題をわかりやすく解説
- 【DL超入門5】「自然言語処理」ってなに?
- 【DL超入門6】ChatGPTってなに?
- 【DL超入門7】画像を処理するということは?CNNとGANのしくみをやさしく解説
- 【DL超入門8】動画(時系列データ)の扱い方 ― RNN(再帰型ニューラルネットワーク)とは?
(補足)この記事で扱ったキーワード(G検定シラバスベース)
RNN(再帰型ニューラルネットワーク)、LSTM(長短期記憶)、GRU(ゲート付きユニット)、時系列データ、動画認識、音声認識、文脈理解、系列予測



コメント