blog

RNN（Recurrent Neural Network）時系列データを扱うニューラルネットワーク＝音声データ

2020.01.27 2022.04.11

リカレント・ニューラル・ネットワーク

ディープラーニングは、画像認識の分野だけでなく、音声認識の分野でも画期的な性能を発揮しました。
CNN が扱う画像データは二次元の矩形データでしたが、音声データは可変長の時系列データです。
この可変長データをニューラルネットワークで扱うため、隠れ層の値を再び隠れ層に入力するというネットワーク構造にしたのが、 RNN（ Recurrent Neural Network）です。

CNN＝画像データ　二次元の矩形データ

RNN＝音声データ　可変長の時系列データ

隠れ層に戻すという操作を、時間軸方向に展開。
t = 0 での隠れ層の出力 h 0 は、 t = 1 での隠れ層に入力します。

さらに h 1 は、 h 2 に入力します。
このように展開して考えると、隠れ層には、時系列的に過去のデータが入力されていることが分かると思います。

この展開したネットワークを利用して、 RNN は 誤差逆伝播法 で学習できます。

ただし誤差の計算方法は、通常のニューラルネットワークとは少し異なります。

誤差は、最後の時刻 T から最初の時刻 0 へ向かって伝播していきます。

したがって、時刻 t における出力 Yt の誤差とは、時刻 t における教師データとの差と t + 1 から伝播してきた誤差の和となります。

つまり RNN は最後の時刻 T までのデータがなければ学習ができません。
このため長いデータは、常に一定間隔で最新データだけを切り出すなどの操作が必要になります。

BERT~、今後のコア技術

短時間のデータしか処理できないRNNを解決したのがLSTM（Long Short-Term Memory）

仕事のメモや備忘録。いろいろ実験＆ひとりごと

RNN（Recurrent Neural Network）時系列データを扱うニューラルネットワーク＝音声データ

コメント

関連記事

鴨川散歩

SaraCameraの使いみち

データベースで更新するときは、文字型格納先はvarchar型ではなくnvarchar型に！

Selectboxで選んだ項目によって特定の要素の背景色を変える

オーストラリアへ新婚旅行

真言宗御室派・福楽寺ウェブサイト

10月10日 Stripeを使ってカード購入ページを作る

【今、思いついたこと】紙で印刷バックアップ→スキャナで自動復元

MultStep ＆ PDF

Archive

Lineのスタンプ

VisualStudio2023 コントロールのプロパティが表示されない

全角の文字を半角に変えて数値型にして計算式に使う

藤

年忌名を英語に変換

外字検索（検索ボックス付き）

VisualStudio2022でCrystalReports

Crystalreportsのグループごと連番

寺院でのパソコンの活用方法（←AIが勝手に作った文章ですのでアテにしないでください）