【超DL入門８】動画（時系列データ）の扱い方

画像は「一瞬」を切り取ったものですが、動画や音声、株価のようなデータは「時間の流れ」があります。AIがこうした“連続する情報”を理解するには、時間の順番を意識したしくみが必要です。

たとえば犬が走っている動画を考えてみましょう。
1枚の画像では「犬がいる」ことはわかりますが、「走っている」ことはわかりません。

でも、連続した画像（フレーム）を見れば：

このように「時間の変化」を見ることで、「犬が走っている」と判断できるのです。

こうした「時間の流れ」を扱うためには今の情報だけでなく「過去の情報も覚えておく」しくみが必要です。

たとえば：

このように、「前の状態」を記憶しながら、次の判断に活かします。

時系列を扱うというのは動画だけでなく、音声や株価、文章などにも使われます。

このように「前の状態」を記憶しながらという方法は「長い記憶」を克服する必要があります。人も長時間分の丸暗記は難しいでよね。そこで弱点を補うために登場したのが：

で、長い時間の流れを扱えるようになっています。（私はこれができない(笑)

動画を見て「ジャンプしている」「走っている」と判断するAIは、以下のような流れで動いています：

つまり、CNN＋RNNの組み合わせで「動きのある世界」を理解しているのです。

なお、動画（時系列データ）もChatGPTと同様に、全体を俯瞰して重要な部分に注意をすアテンション処理を導入したTransformerという手法により、並列で高速な計算が可能になって超進化をしています。

RNN（再帰型ニューラルネットワーク）、LSTM（長短期記憶）、GRU（ゲート付きユニット）、時系列データ、動画認識、音声認識、文脈理解、系列予測

コメント