「声の計測器」に欲しい計測項目を探してみましょう。最後には、計測項目としてリストアップしたいと思います。まずは、声の特徴を調べるところからスタート。


声の特徴を捉える

「声の特徴」とは? と、まずシンプルな疑問からスタートしたいと思います。
発声の音すなわち音声そのものの特徴と、発話の特徴と分けて捉えたいと思います。

音声の特徴

音声の特徴には、どんなものがあるのか?
世代や性別に寄らず良質な音声という視点でみたとき、以下のような特徴を持つ音声が理想的と言えるのではないでしょうか。
  • 滑舌が良く聞き取りやすい
  • イントネーションが豊かで判りやすい
  • 適切な速度でテンポが良い
  • 声に艶がある
では、これらを「計測」する場合、何をどこから求めたら良いのか? 
それには、音声解析・音声分析の世界で、どのように捉えているかを調べるのが良さそうです。

既存の分析手法を活用
既存の分析手法を活用

発話の特徴

発話の特徴には、
  • 曖昧でなく明快だ
  • 味がある
  • 元気が良い、快活だ
などが挙げられます。
音声の特徴が良くても(滑舌が良く、イントネーションも適格でテンポが良い)、話が分かりにくいということがあります。主語が不明瞭だったり、語順がおかしかったり、繰り返しが多く冗長だ、ということに起因しているようです。
さて、こちらは「計測対象」として扱えることが出来るでしょうか?
可能性を探ってみたいと思います。

滑舌 ⇒ 明瞭度、置換え監視

では、まず音声の特徴で最初に挙げた滑舌から。
ネット検索などで専門家の方々のブログや研究レポートなどから、「滑舌が悪い」発声は、二種類あるようです。
  1. 高い周波数の発声が弱い、または欠落
  2. 他の言葉への置換わり
それぞれについて、音声特徴を調べます。

滑舌不良による置換え


イントネーション ⇒ 音程、音圧

イントネーションは、「抑揚」と訳されていますが、専門家によるとイントネーションの抑揚とアクセントの抑揚は、異なるとのこと。イントネーションは、文書の論理的抑揚と感情的抑揚がある*1が、アクセントは、単語の抑揚+強弱だそうです。
紛らわしいので、単に「抑揚」とした場合、イントネーションとアクセント双方を意味することにします。

「裏庭には二羽、庭には二羽、鶏がいる。」
【参照ページ】

テンポ ⇒ 速度、区切り

NHK式7つのルールというものがあるそうです。こちら*1のサイトで、第6のルールとして、
「一分300文字」でゆっくり話す
が挙げられています。これは、主にニュース原稿などで、視聴者に確実に聞き取れる速度として守られていて、テロップや映像の挿入などは、この原稿文字数から計算されているとか。
適切な速度と区切りをどのように観測するか? 詳しくは、ブログ「テンポ ⇒ 速度、区切り」で。

 声の艶 ⇒ 音色・倍音

艶のある声の対局に、「だみ声」、「しゃがれ声」や「ハスキーボイス」があります。後者の二つを纏めて「嗄声」と呼ぶそうですが、シニア世代の特徴を示すとも云われています。
両者の違い、すなわち艶があるか無いかは、「倍音」「非倍音」の量で判定できるそうです*1
発せられたある瞬間の音に着目した時、その音には、基本的な音程(基音)があり、どれだけ「澄んでいる」か? すなわち「雑音がない」かは、「倍音」の量で決まるとのことです。「倍音」は、楽器で言えば、同じ音でオクターブが異なる高音グループですね。この同じ音グループで構成された発声は、「艶がある」と。
「ある瞬間の音」は、この場合、既述の単一モーラに相当するとして、その瞬間(既述では、0.129秒)の音の周波数を全て取り出し、その内訳をみれば判定することが可能でしょう。
「音の周波数を全て取出して・・」
 と書きましたが、私たちは、瞬間瞬間でも複数の周波数を発声しているそうで、この割合が、その人の個性を示しています。昨今、これらを指紋ならぬ声紋として、本人認証に活用しているようです。

音の三要素

音の三要素と云われているのが、音の大きさ、音程、音色です。ここまで、音の特徴抽出に必要な指標を探してきましたが、この3つが網羅されているか?
すでに、音の大きさである音圧と音程は、音声特徴の指標として候補にあげました。最後の音色については、
「音色とは、倍音を含めた音の構成のこと」*2
ということから、倍音・非倍音の割合から、「艶のある音色」が判定することが出来ます。
これで、音の三要素を全て網羅することが出来ます。


【参照ページ】


発話の特徴を計測する

発話の特徴に、
  • 曖昧でなく明快だ
  • 味がある
  • 元気が良い、快活だ
を挙げましたが、これらは、計測可能でしょうか。一つづつ探ってみたいと思います。

曖昧でなく明解

言い換えれば、
  • 正しい文法に沿っている
  • 統一性がある
  • 矛盾がない
ということですが、これらはAIによる「音声認識」で計測可能かもしれません。

携帯電話での音声認識など、昨今は無償で便利な音声認識が利用できます。これらの認識システムでは、認識した文字列の「信頼度」あるいは「信用度」といった判定結果を通知してくれるものがあります。

音声から文字に変換する際、AIでは複数の可能性から最終的に文字列を決定するのですが、その結果に対する自信度を示しています。この結果すなわち信頼度が良ければ、「曖昧でなく明快」な発話をしていると云えそうです。発話の特徴指標として利用できるのではないでしょうか?


味がある

がらがら声でも、味のある役者さんがいらっしゃいます。

魅力的な歌声を持つ宇多田ヒカルさんですが、声の艶である倍音ではなく、彼女の非倍音が特徴になっているそうです。*1

残念ながら、この特徴を計測する方法は見当たりませんでした。

元気が良い、快活

こちらについては、やはりAIの音声認識に、感情を判定する機能がありますが、「元気」、「快活」といった特徴を取り出す機能は提供されていません。
残念ながら、こちらも計測する対象とすることが出来ませんでした。

【参照ページ】

何を測るか

以上から、測る対象は、次のようになりました。
  • 滑舌
    • 周波数
    • 置換わり
  • 抑揚
    • 音程の変化
    • 音圧の変化
  • テンポ
    • 速度
    • 区切り数
  • 声の艶
    • 倍音の構成比
  • 判りやすさ
    • 音声認識の信頼度
次のブログでは、これら対象の計測について検討します。