赤木正人のホームページ 本文へジャンプ
研究紹介: 音声信号処理:機械の耳・口を賢くしよう

 基本路線
  赤木研究室では,音声信号処理の研究を行っています.音声によるコミュニケーション
  (聞く・話す)は人間の基本的な営みなので,まず人間を知り,そして営みを模擬して計算
  機上に記述することで,高度の音処理システムの実現を目指しています.

 研究範囲
  図1は,音声によるコミュニケーション(聞く・話す)がどのような過程を経て行われているかを
  示しています.当研究室では,赤線で囲った部分(話す:音声発話,実環境での音声伝播,
  聞く:音声知覚)を研究対象としています.このために,工学(ディジタル信号処理)だけでは
  なく,医学・生理学・心理学・音響物理学,音声学などの分野との連携をとりながら研究を
  行っています.(図2)




          図1:音声コミュニケーションの基本(ことばの鎖)

                   

                   図2:関連分野

 研究内容
  
話す: 機械の口がより賢くなるように,より自然な合成音をつくることを目的として,音声
  スペクトルと声道形状の関係,合成音への個人性・感情などの非言語情報の付与,
  歌声らしい歌声の合成(図3)などの研究を行っています.
  
聞く: 雑音とか残響が存在する実環境でのヒトのすばらしい聴取能力を,少しでも機械の
  耳に与えて賢くするために,カクテルパーティ効果の実現,雑音中の音声強調(図3)などの
  研究を行っています.

  (参考)  「JAISTAR」  Vol. 1,2000年12月号
        この人に聞く 情報科学研究科 赤木正人教授




             図3:研究内容概観



 研究項目の説明

1.非言語情報 論文
1-1 歌声
1-2 音声の個人性
1-3 感情音声
1-4 音声変形
1-5 音声符号化

音声により送受される情報は,言語のみならず,非言語情報である感情,年齢・性別,話者の社会的ステータスまで様々である.本研究では,音声コミュニケーションにおける非言語情報の役割を明らかにすることを目的として,歌声,感情音声,個人性等をターゲットとして,非言語情報の生成・知覚,合成・認識について研究を行っている.現在までに,非言語情報付加のための様々な手法の開発,これらを用いた歌声,感情音声の合成,歌声知覚における脳活動計測等を実施している.成果として,歌声合成のコンテストであるInterSpeech2007 Synthesis of Singing Challengeにおいて第1位を獲得した.また,この研究は,総務省戦略的情報通信研究開発推進制度(SCOPE)および科研Aに採択された.さらに,高雑音・残響環境においても避難誘導音声を明瞭に聞くことができるように,呈示する音声を変形するための中心的な手法として,現在,研究に取り組んでいる。今後は,非言語情報の生成・知覚の研究を足がかりに,これらに関わる脳活動についての研究に内容を広げる予定である.
(参考資料)
北国新聞報道SCOPE研究内容北陸中日新聞報道


2.音声回復 論文
2-1 雑音抑圧
2-2 雑音中のF0推定
2-3 残響抑圧
2-4 骨導音声
2-5 音声認識
2-6 音源方向推定

雑音が存在する環境においては,人の音声了解度は著しく低下する.また,機械による音声認識システムにとっても,認識率の低下は免れない.そこで本研究では,実環境に存在する雑音・残響に邪魔されないコミュニケーションの確立を目指して,雑音抑圧&音声強調(マイクロホンアレイ,音源分離),骨導音声,残響抑圧について調査研究を行っている.また,これらを応用して,実環境での頑健な音声特徴抽出についても研究を行っている.現在までに,李助教とともにトヨタと共同して自動車内音声認識用マイクロホンアレイの開発,(株)テクニカフクイと共同して会議用マイクロホンアレイの試作品製作等を行い,成果として,特許2件が公開となっている.骨導音声,残響抑圧についても,鵜木准教授を中心として,精力的に研究を行っている.今後は,雑音・残響抑圧法の福祉機器(特にHearing Aid)への応用,高雑音環境での音声通信などへの応用を試みる予定である.
(参考資料)北国新聞報道


3.カクテルパーティ効果のモデル化論文
3-1 音源分離
3-2 プライバシー保護
3-3 雑音中の音知覚

人の雑音中での音声抽出過程(音源分離過程:カクテルパーティ効果)について調査を行い,これをモデル化することで,複数の音源の中から目的音を分離抽出する手法,これを応用して音声認識システムを構築する手法,走行雑音が存在する車室内での効率的な報知音の呈示方法,また,これを逆手にとって会話におけるプライバシー保護を目的として音声了解度の低下を促進させる手法について研究を行っている.この研究の一環として,(株)グローリーと共同して会話プライバシー保護装置の試作品製作を行っている.成果として,国内特許1件が公開,国際特許申請(米,独,仏,中国,韓国)1件となっている.今後は,複数の音源の中から目的音を知覚するメカニズムについて,心理物理学的手法を適用して,さらに深く基礎的検討を行い,応用システムの性能向上を目指す.
(参考資料)テレビ報道(北陸朝日放送「ニュース特集:着メロってすごい!?」
プライバシー保護関連資料(グローリー報道発表日経産業報道セキュリティショーパンフ電波新聞報道


4.聴覚心理 論文
4-1 聴覚モデル
4-2 文脈効果
4-3 聴覚フィルタ
4-4 位相知覚
4-5 音声知覚
4-6 騒音評価
4-7 ピッチ知覚
4-8 方向知覚

ヒトの聴覚特性を調べ,これをモデル化するために,主に聴覚心理の立場から,モデル化の基礎となる様々な心理物理測定を行っている.研究内容は,位相知覚,音声知覚(母音知覚,文脈効果)等,多岐に渡る.そして,これらをもとに,聴覚マスキング特性のモデル化,文脈効果のモデル化と音声認識への応用,聴覚末梢系モデルの騒音評価への応用を行ってきた.成果として,国内特許が1件公開となっている.今後は,「非言語情報の生成と知覚」とからめた知覚モデルの構築を推進していく予定である.
(参考資料)テレビ報道
日本テレビ「ズームイン!スーパー」 ズームアイ「生活に溢れる音の不思議」2001年11月7日放送
日本テレビ「ズームイン!スーパー」 ズームアイ「人は何故聞き間違いを起こすのか?」2002年5月29日放送


5.生理学的聴覚モデル 論文

ヒトの聴覚特性を調べ,これをモデル化するために,主に聴覚生理の立場からモデル化を行っている.モデルを構築する場合,次の二種類のモデル化が考えられる.
(1.実態モデル)モデルによる真理追求のアプローチ:生理学,心理学において実体を用いて実験できない場合,精巧なモデルを用いて計算機上でシミュレーションを行い,様々な知見を得るためにモデル化.
(2.機能モデル)工学応用:人間は鳥を見て空に憧れ飛行機を作った.飛行機は鳥と同じように空を飛んでいるわけではないが揚力という物理学の基本原理は同じである.このように,基本原理を見つけだして工学的に応用することを試みるためのモデル化.
本研究室では,実態モデルとして,音源方向定位をつかさどる蝸牛神経核および上オリーブ核のモデル化,機能モデルとして,聴覚有毛細胞→聴神経→蝸牛神経核→下丘にいたる初期聴覚系のモデル化を行っている.成果として,日本音響学会佐藤論文賞を受賞した.しかし,綿密なモデル化を行うためには,綿密な生理実験が欠かせない.本学においては,これには限界があるので,現在,中断中である.


6.異常構音 論文
6-1 異常構音の知覚
6-2 3次元声道モデル

口腔疾患,運動機能障害等のために構音が正常にできず,発話した音声にひずみを生じることがある.このひずみがどのような形態の構音から発せられるのか,また,ひずみと知覚される主原因は何か,を明確にすることは,発話訓練補助のみならず,人の音声生成・知覚機構を解明する上で有益である.本研究では,MRIによって取得した声道形状から伝達特性をシミュレートすることで異常構音の生成機構の解明を試み,また,聴取実験により異常構音と知覚されるための音響物理関連量を明らかにする.現在までに,昭和大学歯学部,東京以下歯科大学と共同して,側音化構音音声,癌による舌除去後の音声,口蓋裂音声等の分析を行い,その特徴分析を行ってきた.これらの研究成果は医学雑誌に掲載済みである.


7.生成と知覚の相互作用 論文

音声知覚・生成は,音声によるマン-マンコミュニケーションの根幹を成すものである.また,マン-マシンコミュニケーションにおいても,ヒトの音声生成・知覚機構を基礎として,これを工学的に実現した音声合成・認識が重要な役割を果たそうとしている.本来,音声知覚・生成は,音声コミュニケーションにおいて表裏一体を成すものであり,コミュニケーションを円滑に保つためには双方が一体となって働く必要がある.本研究では,音声生成と音声知覚の密接な関係を示す一例として「聴覚フィードバック」を取り上げ,知覚・生成の相互作用の解明を図ることを目的として,様々な生理指標の測定を試みている.現在までに,1.被験者のフィードバック音の変形への反応は,変形の方向と反対方向であり,発話において変形に対する補正がリアルタイムで行われていることが確認できた.2.ホルマント周波数分析から,第1,第2ホルマントにおいて明確な補償動作が観測された.これは,スペクトルに関する聴覚フィードバックにおいて短時間での補正反応を捕らえた初めての結果である.3.筋電(EMG)および舌運動(EMA)の分析結果から,摂動に対してこれを補償するような筋肉および舌の動きが観測された.4.補償動作は,変形開始から約150 msで始まり,290 msで最大値に到達した.ことが明らかとなっている.今後,fMRIおよびMEG等を用いて,脳活動の測定を行い,より詳細な結果を得る予定である.


8.信号分析論文

本研究では時間{周波数分解能にすぐれる精密周波数計測方法を提案している.現在までに,音響周波数帯の計測において,楽器音のF0精密推定,微少ドップラーSHIFTの実時間計測など, 小数点以下の周波数分解能ならびに数十ms 級の時間分解能が同時に実現できている.

   All Rights Reserved, Copyright© Masato AKAGI, 1998-2017