プロフィール

赤木正人のホームページ

科学技術振興機構（JST）未来社会創造事業　　　　　　（平成31年1月1日現在）

関連業績

　課題：確実に情報を伝える音声避難誘導システムの実現　（JPMJMI18D1）

　概要 (PDF)

１．まえがき

　日本は災害大国である。地震も多く近年風雨の被害も多くなっている。生命に関わる緊急時に，状況に応じて安全な場所への適切な音声避難誘導を行うことは，被害の最小化を図る観点から重要である。我々の研究グループでは，「音声により必要な情報を確実に伝える」ために，了解度の高い避難誘導が行える音声生成システムの提案・構築を行うことを目的として，研究を行っている[1]。本稿では「音声により必要な情報を確実に伝える」ために，避難誘導音声を適切に呈示する手法について，我々のグループが行ってきた研究内容を紹介する。

　音声アナウンスによる避難誘導は，

(I) 誘導サインを視覚で確認できなくとも有効

(II) 一度に多くの人に誘導指示を与えられる

ことから各所で使われている。しかし一方で，避難誘導音声がわかりづらい，聞き取りにくいなどの声があるのも事実である。雑音が大きく残響時間が長い環境（高雑音残響環境下：たとえばトンネル，地下鉄駅構内など）での音声アナウンスによる避難誘導は，時として音声が聞き取り難いという問題が生じる。また，聞こえていても，「正常化の偏見」のために危険性を認識せず，結果として非難が遅れる場合もある。今そこにある危険性を確実に示し，避難を強く促すための対策，すなわち，様々な環境要因および危険性の度合いに応じた音声アナウンスの生成が必要である。

　雑音残響中の音声呈示を考えれば，誘導音声(a)　→　音響機器による呈示(b)　→　雑音残響空間で音声に歪(c)　→　聴取音声(d)，の流れとなる。（図1）

図１：雑音・残響空間での音呈示

これをもとに了解度向上の方策を考えると，大きく次の三種類の方法が考えられる。

　(1) 雑音残響空間での音声の歪(c)を軽減するために，壁，天井などの吸音による雑音・残響対策により，雑音・残響をできるだけ少なくするように環境を整える。駅，トンネル内の吸音など，建築音響からのアプローチ。

　(2) 音響機器による呈示(b)において，スピーカの配置など機器の対策により，音響機器の特性をできるだけ良いものにする。防災無線放送のスピーカ配置など，電気音響からのアプローチ。

　(3) 誘導音声(a)を変形することにより，明瞭な声，通りやすい声を呈示する。音声生成・知覚からのアプローチ。

　上記(1)および(2)には多くの研究があるが，これらを既存の空間に適用する場合には，空間の環境を整えるための工事が必要であり多大な費用がかかる。本研究では，上記(3)に焦点をあてる。
　筆者らは，雑音残響中でも明瞭な声，通りやすい声となるような音声の生成のために，高雑音残響環境下の音声コミュニケーションにおいて，ヒトが意識的に／無意識のうちに行っている優れた振舞いに着目し，これを模擬することで，危険性の度合いに応じた適切な避難誘導音声を呈示するためのシステム構築を実施している。ヒトの優れた振舞いについて，着目する点は次の二つである。

(A) 音環境のフィードバックによる呈示音声の適応的制御

(B) 音声に含まれるパラ言語情報を状況に合わせて制御

２．システムの概要

2.1 音環境のフィードバックによる呈示音声の適応的制御

　雑音環境において，ヒトは自身が発した音声を雑音とともに自らの耳で聞き，その聞こえをフィードバック情報として利用することで，自身にとってより聞こえ易い音声となるように発話を適応的に制御することができる。この能力は，聴覚フィードバックの一種であり，ロンバード効果と呼ばれる。ロンバード効果により，雑音中での音声了解度は向上する。我々の研究グループでは，我々が提案した音環境把握手法[2, 3]で推定した値をフィードバック情報としたロンバード効果を模擬するシステムを提案し，雑音レベルが変動する環境での音声了解度向上に貢献してきた[4, 5]。さらに，残響環境においても，ヒトが自身に聞こえ易い音声となるように発話を適応的に制御している証拠を発見した[6, 7]。

2.2 音声に含まれるパラ言語情報を状況に合わせて制御

　ヒトは，発話内容を補助するように発話に緩急・強弱等の情報（パラ言語情報）を巧みに付加し，聴取者に対してより強く注意喚起を行うことができる。一例として，平成28年11月22日午前5時59分，福島県沖の地震により福島県沿岸に津波警報が発令された時に放送された音声がある。我々の研究グループでは，午前 6:00〜10:00時に各局で放送されたアナウンス音声を分析し，言語内容はより直接的で，緊急地震速報を読むアナウンサーの声は強く緊迫感を持ったものに変わってきたことを確認した[8]。この音声の変遷は，緊迫感を付与することで「正常化の偏見」を低減し，顕著性や明瞭性を向上することができるためである[8, 9, 10, 11, 12, 13]。

2.3 システムの構築

　これらの知見をもとにした，本研究で提案するシステムの概念図を図2に，システムの全体図を図3に示す。

図2　システム概念図

図3　避難誘導音声呈示システムの全体図

　避難誘導音声を呈示する場合，音声呈示時の対雑音残響対策，および，危機を認識させるための誘導音声の適切な制御が必要である。これらに対応するために，次の3つの課題を設定した。

　(1) 音環境のフィードバックによる呈示音声の適応的制御システムのための課題：聴取者のおかれている雑音残響環境を計測しながら呈示された音声を常にモニタリングすることにより，ロンバード効果と同様に，音声の知覚的に重要な特徴を強調して，自然であり，しかもその環境において最も了解度が高くなるアナウンス音声を生成する。

　(2) 状況にあわせた言語・パラ言語情報の制御システムのための課題：聴取者に対して注意喚起が行えるように，状況に合わせて言語情報を選択し，パラ言語情報を適応的に付加することで，アナウンス音声を生成する。音声の生成では，緊急時の音声知覚を考慮しながら避難誘導音声はどのようにあるべきかを考察し，ヒトの音声生成機構の制約にもとづいて，了解性の高い自然な音声の生成を行う。

　(3) 状況に応じた適切なアナウンスの実現に向けた訓練システムのための課題：日本には，2017年10月時点で約1700市町村があり，それぞれが防災無線システムなどの避難誘導が行えるシステムを導入している。各自治体での避難誘導は，市職員がアナウンスする場合が多い。アナウンサーへの助言システムを応用することにより，アナウンサーの技量を向上させるための訓練システムを構築する。

３．現状と今後の課題

　各課題について，現在までの到達点と今後の課題についてまとめる。

　課題(1)について：雑音環境では，既に実績がある[5, 14, 15]。我々のシステムで模擬したロンバード音声は，ヒトが発話したロンバード音声と同程度の了解度・自然性を持っていることが確認できた。しかし，模擬できたことに甘んじるのではなく，今後，合成音声の自然性はそのままに，了解度はヒトのロンバード音声を超えられるものを合成する必要がある。残響環境においても，音声強調の目途はついている[7, 16]。残響中において了解度を向上させることができる音声を見つけ出すことはできた。この音声の音響分析も行っているところである。今後は，この音声を模擬するための規則を探求し，音声合成へ適用していく必要がある。さらに，雑音環境，残響環境それぞれが独立ではなく，両方を加味した音声の適応的制御規則を構築していく必要がある。このためには，音声強調と音声の自然性のトレードオフをいかにつけていくかが課題である。

　課題(2)について：現状，合成音へのパラ言語情報の付加は進んでおらず，合成音声により迫りくる危険性を十分に伝えられるかどうかは危うい状況である。現在，緊迫感をキーワードとして，実際にアナウンスされた音声の生成・知覚に関する分析を行っているところである[17] [18] [19]。緊迫感の知覚には，基本周波数包絡が最も関係していることが明らかになっており，これを状況に合わせてどのように規則により制御するかが，今後の課題である。
　課題(3)について：アナウンサーの技量にはばらつきがあり，了解性が高く誘導を喚起できるアナウンスが行えるかどうかも危うい状況である。技量を向上させるための訓練システムを考慮する必要があろう。

参考文献

[1] 赤木，鵜木，久保，小林 (2017). “雑音残響環境での避難誘導音声呈示”，音響学会聴覚研究会資料，H-2018-107.

[2] Unoki, M., Miyazaki, A., Morita, S., and Akagi, M. (2017). “Method of Blindly Estimating Speech Transmission Index in Noisy Reverberant Environments,” Journal of Information Hiding and Multimedia Signal Processing, International Volume 8, Number 6, November 2017, 1430-1445.

[3] Morita, S., Lu, X., Unoki, M., and Akagi, M. (2017). “Method of Estimating Signal-to-Noise Ratio Based on Optimal Design for Sub-band Voice Activity Detection,” Journal of Information Hiding and Multimedia Signal Processing, International Volume 8, Number 6, November 2017, 1446-1459.

[4] Kubo, R, Morikawa, D., and Akagi, M. (2016). “Effects of speaker’s and listener’s acoustic environments on speech intelligibility and annoyance,” Proc. Inter-Noise2016, Hamburg, Germany.

[5] Ngo, T. V., Kubo, R., Morikawa, D., and Akagi, M. (2017). “Acoustical analyses of tendencies of intelligibility in Lombard speech with different background noise levels,” Journal of Signal Processing, 21, 4, 171-174.

[6] 久保理恵子，森川大輔，赤木正人 (2017). “残響時間が異なる環境において発話された音声の了解度変化”，音響学会聴覚研究会資料，H-2017-88.

[7] 久保理恵子，赤木正人 (2018). “発話時の残響時間によるフォルマント周波数の変化と残響下における了解度”，日本音響学会電気音響研究会資料，EA-2017-108.

[8] 小林まおり，赤木正人 (2017). “避難呼びかけ音声の心理的評価”，音響学会聴覚研究会資料，H-2017-86.

[9] 小林まおり，赤木正人 (2018). “避難呼びかけ音声の心理的評価～ 30～60 代を対象とした調査～”, 音響学会聴覚研究会資料，H-2018-31.

[10] 小林まおり，赤木正人 (2018). “避難呼びかけ音声の心理的評価”，日本音響学会誌 74, 12, 633-640.

[11] 内閣府中央防災会議防災対策推進検討会議 (201). “津波避難対策検討ワーキンググループ（第5-6回会合）”

[12] 井上裕之 (2011). “大洗町はなぜ「避難せよ」と呼びかけたのか,” 放送研究と調査, 9月, 32-53.

[13] 井上裕之 (2012). “命令調を使った津波避難の呼びかけ‐大震災で防災無線に使われた事例とその後の導入の試み‐”，放送研究と調査, 3月, 22-31.

[14] Ngo, T. V., Kubo, R., and Akagi, M. (2017). “Acoustical rules for mimicking Lombard speech uttered in a various noise level background,” Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Sendai, H-2017-87.

[15] Ngo, T. V., Kubo, R., and Akagi, M. (2018). “Speaker-independent control model for mimicking Lombard speech uttered in background noises with various levels,” Proc. ASJ '2018 Spring Meeting, 3-P-33.

[16] 久保理恵子，赤木正人 (2018). “残響時間が異なる環境において発話された音声の了解度変化‐高齢者を対象とした検討‐”, 音響学会聴覚研究会資料，H-2018-108.

[17] 濱田康弘，小林まおり，赤木正人 (2018) “避難呼びかけ音声の音響的特徴の分析”, 日本音響学会平成30年度春季研究発表会, 2-Q-38.

[18] 小林まおり，濱田康，赤木正人 (2018). “音声の緊迫感に関与する音響特徴の検討”，音響学会聴覚研究会資料, H-2018-71.

[19] 濱田康弘，小林まおり，赤木正人 (2018). “音声の基本周波数軌跡が緊迫感に与える影響‐藤崎モデルによる検討‐”，日本音響学会平成30年度秋季研究発表会, 2-P-18.