- (1) 生理学的データに基づいて忠実的な発話機構モデルを構築
-
本テーマの目標: 生理学的データに基づいて人間の発話機構を忠実的な三次元的発話機構モデルを構築する。これまで構築した発話機構モデルの精度を改善しながらモデル計算の高速化を追求する。
生理学的データ:ある特定話者をモデル話者として、舌、顎、舌骨および声道壁の正中矢状面を中心とした三次元的なMR画像を目的に合わせて様様な条件で収録した。
手法:舌のモデルは正中矢状断面と1cm外側の傍矢状面のMR画像より抽出した輪郭により構成され、左右幅2cmの厚みをもつ。このモデル上に、同話者のMRIデータに従い舌筋を配置する。声道壁に相当する口蓋、咽頭後壁および下顎の表面は左右幅3cmの剛体壁からなる。
モデル化:モデル計算の高速化を目指して軟組織である舌と硬組織である下顎・舌骨とを一体としたばね・質点ネットワークとしてモデル化する。ここで、硬組織のスティフネスは軟組織のものより極端に大きな値とする。これから有限要素法の手法を導入してモデルの精度を改善する。
モデルの制御:調音目標接近法により筋収縮パターンを推定し、それをモデルに組み込まれた筋モデルに与えることにより発話運動を実現することができる。以上により、このモデルは発話時の人間の調音動作を模擬することができる。
- (2) 音声生成のメカニズムに関する研究
-
本テーマの目標: 人間の音声生成(特に感情を込めた会話音声の生成)のメカニズムを解明する。
関連研究: 三次元生理学的発話機構モデルに関する研究である。
手法: 発話機構モデルに調音運動目標点を入力として発話運動を計算する。得られた発話運動をMRIムービーやX線マイクロビームにより脳レベルでの発話運動プランの評価を行う。人間の音声生成メカニズムの解明及びそのメカニズムを音声合成と音声認識に適用する。
- (3)個性のある音声合成に関する研究
-
本テーマの目標 音声の個人性と自然さを目指し人間の発話メカニズムに基づいて音声合成システムを構築する。
関連研究 発話器官の形状学的な計測とモデル化(静的な特性)および、発話機構モデル(動的な特性)に関する研究である。
手法: 声の個性を決めるものは、音声の生成に関与するこれらの発話器官の形状とその動きにおける個人ごとの差異である。この個人差には、生まれつき備わったものと、習慣として身についたものとがある。前者は、話者の年令・性別や発話器官の寸法に関連し、後者には、方言や育った環境などが含まれている。本研究は、前者の要素をはじめとするすべての要素の表現とモデル化を行う。こうした要素を考慮にいれた音声合成用のパラメータを用いて電気回路音響モデルにより音声を合成する。
- (4)調音運動を考慮した音声認識に関する研究
-
本テーマの目標 人間の音声生成メカニズムを音声認識に適用させることにより、自然会話に対する音声認識率を上昇させる。
関連研究 X線マイクロビームシステムなどにより収録した音声と調音データの分析、隠れマルコフモデル(HMM)などの音声認識に関する研究である。
手法: Bayesionネットワークを用い、調音運動のデータと音声信号とともに音響モデルのトレーニングに用いることにより、人間の音声生成メカニズムを音声認識に適用させる。