テクニカルレポート フルバンド音声を対象とした音声分析合成システムに用いるスペクトル包絡の音質劣化のない低次元表現

宮下, 玄太  ,  森勢, 将雅  ,  小津, 賢司

2017-MUS-115 ( 23 )  , pp.1 - 6 , 2017-06-10
ISSN:2188-8752
NII書誌ID(NCID):AN10438388
内容記述
本稿ではフルバンド音声分析合成系を対象としたスペクトル包絡の音声符号化について述べる.本研究におけるフルバンド音声とは,可聴周波数範囲を満たすナイキスト周波数を持つ,サンプリング周波数 40 kHz 以上の音声である.音声符号化に関する研究は,一般にはサンプリング周波数 16 kHz 以下の低域音声に焦点を当てて行われてきた.一方で,現在の統計的パラメトリック音声合成では,フルバンド音声のパラメータの低次元表現が使用されている.本研究は,フルバンド音声を対象とし,スペクトル包絡のメルケプストラム解析に焦点を当てて行った.メルケプストラム解析で利用される周波数軸の伸縮には 3 種類 (mel, Bark ERBN) の聴覚スケールを使用した.音声分析合成系 WORLD を用いて得られたスペクトル包絡を対象に符号化を行い,作成した合成音声を用いた主観評価実験により,最適な次元数は約 40 であることを示した.聴覚スケールの種類は,合成音の音質に有意な影響を与えないことも確認した.
本文を読む

https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=182225&item_no=1&attribute_id=1&file_no=1

その他の情報