blog

RNN（Recurrent Neural Network）時系列データを扱うニューラルネットワーク＝音声データ

2020.01.27 2022.04.11

リカレント・ニューラル・ネットワーク

ディープラーニングは、画像認識の分野だけでなく、音声認識の分野でも画期的な性能を発揮しました。
CNN が扱う画像データは二次元の矩形データでしたが、音声データは可変長の時系列データです。
この可変長データをニューラルネットワークで扱うため、隠れ層の値を再び隠れ層に入力するというネットワーク構造にしたのが、 RNN（ Recurrent Neural Network）です。

CNN＝画像データ　二次元の矩形データ

RNN＝音声データ　可変長の時系列データ

隠れ層に戻すという操作を、時間軸方向に展開。
t = 0 での隠れ層の出力 h 0 は、 t = 1 での隠れ層に入力します。

さらに h 1 は、 h 2 に入力します。
このように展開して考えると、隠れ層には、時系列的に過去のデータが入力されていることが分かると思います。

この展開したネットワークを利用して、 RNN は 誤差逆伝播法 で学習できます。

ただし誤差の計算方法は、通常のニューラルネットワークとは少し異なります。

誤差は、最後の時刻 T から最初の時刻 0 へ向かって伝播していきます。

したがって、時刻 t における出力 Yt の誤差とは、時刻 t における教師データとの差と t + 1 から伝播してきた誤差の和となります。

つまり RNN は最後の時刻 T までのデータがなければ学習ができません。
このため長いデータは、常に一定間隔で最新データだけを切り出すなどの操作が必要になります。

BERT~、今後のコア技術

短時間のデータしか処理できないRNNを解決したのがLSTM（Long Short-Term Memory）

主に動作確認用。いろいろ実験＆ひとりごと

RNN（Recurrent Neural Network）時系列データを扱うニューラルネットワーク＝音声データ

コメント

関連記事

Archive

サックス運指

カタカナにする文字起こし

厄年・九曜星

単に数字を置換するだけ（月）

『crysti32.ocx』またはその依存関係のひとつが適切に登録されていません。

改行コードを消す！には

ペーストした画像をワードプレスに投稿する⇒プラグイン不要

Lineのスタンプ

VisualStudio2023 コントロールのプロパティが表示されない