Technical Report テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法
Pre-training Method for DNN-based Speech Recognition and Synthesis Based on Bidirectional Conversion between Text and Speech

曾根, 健太郎  ,  中鹿, 亘  ,  南, 泰浩

2017-MUS-115 ( 40 )  , pp.1 - 6 , 2017-06-10
統計的パラメトリック音声合成への従来のアプローチは,テキスト情報から音声パラメータを生成するために,決定木を用いてクラスタリングされた文脈依存隠れマルコフモデル (Hidden Markov Model ; HMM) を用いる.しかし,決定木は,複雑なコンテキストの依存関係を効率的にモデル化できないことが知られている.その問題を解決するため,深層ニューラルネットワーク (Deep Neural Network ; DNN) を用いて決定木を代替する手法がある.この手法により,テキスト情報から音声パラメータへの依存関係を効率的に表現することができるが,この手法では音声合成しか行うことができない.音声認識を行いたい場合は,音声認識器をまた別に用意して学習する必要があり,その場合学習コストが余分にかかってしまう.そこで,本研究では,学習コストの削減を目的とし,生成モデルである Deep Relational Model (DRM) を用いてテキスト ・ 音声間の双方向の関係性を表現することで,DNN 音声認識器と DNN 音声合成器を同時に事前学習することができる手法を提案する.評価実験では,音声認識と音声合成の 2 つのタスクにおいて,提案手法により事前学習された DNN が,パラメータの初期値をランダムに与えた DNN よりも優れていることが示された.
Conventional approaches to statistical parametric speech synthesis use context-dependent hidden Markov models (HMMs) clustered using decision trees to generate speech parameters from linguistic features. However, decision trees are not always appropriate to model complex context dependencies efficiently. Although an alternative scheme based on a deep neural network (DNN) was presented as a possible way to overcome the difficulty, this approach has a restriction that it is applied for only speech synthesis; for example, this approach cannot be applied for speech recognition. Thus, systems for speech recognition requires training cost separately. This paper proposes a pre-training method for DNN based speech recognition and synthesis by capturing deep relationships between text and speech using deep relational model (DRM) to reduce training costs. Experimental results show that pre-trained DNN-based systems using the proposed method outperformed randomly initialized DNN-based systems.

Other information