Technical Report Encoder-decoderモデルとStacked bidirectional LSTMに基づく和声解析の検討
Investigation of Chord Analysis: Based on Encoder-decoder Model and Stacked Bidirectional LSTM

保利, 武志  ,  中村, 和幸  ,  嵯峨山, 茂樹

2017-MUS-115 ( 33 )  , pp.1 - 5 , 2017-06-10
ISSN:2188-8752
NCID:AN10438388
Description
音楽の生成過程において和声進行は重要な役割を果たしており,楽曲解析や自動作曲 ・ 編曲システム,多重音解析,音楽情報検索など様々な分野においてそのモデル化の研究が盛んに行われている.従来の研究ではルールベースに,あるいは音高パタンを観測系列とした Hidden Markov Model (HMM) や Probabilistic Context-free Grammar (PCFG) などの確率モデルによる階層的なモデル化が行われてきたが,近年では Deep learning を用いて直接的に学習,推定する手法も検討されており,特に時系列データを扱う Long Short-term Memory (LSTM) を用いた手法が注目され始めている.本研究では事前処理として定 Q 変換を施したパワースペクトルに対し,Specmurt 分析を用いて倍音成分の抑制及び基本周波数を強調し,クロマベクトルへと変換した特徴量系列を入力とした LSTM ベースの Deep Neural Network による学習を行う.特に,系列データを前向きと後ろ向きの双方向に学習する bidirectional LSTM に基づき,これに翻訳モデルとして用いられる Encoder-decoder LSTM へと拡張した RNN など複数の RNN による和声の推定を行う.各 RNN によるコード推定精度の比較実験を行った結果,bidirectional な構造と Encoder-decoder モデルによる和声認識への有効性が示唆された.
Full-Text

https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=182235&item_no=1&attribute_id=1&file_no=1

Other information